科学网-2025.03.17-2025.03.23-孙琪的博文

2025.03.17-2025.03.23

2025-3-23 23:45

阅读：1132

学习周报

姓名		孙琪	时间范围	2025.03.17-2025.03.23
周次		第4周	研究方向	LLM增强GNN
本周完成工作	1. 将上周看的三篇论文复习并细致化地看了一遍。并了解了论文中所提到的其他的知识，详见下方笔记。 2. 下载数据集，跑文献代码，但遇到了问题。
本周问题汇报	1. ①基本明白论文中所出现的各公式符号所代表的含义，但其中的数学原理还需要进一步的学习。②查了里面提到的部分数据集的属性，总结成表格。 2. ①用到Transformer时需要访问一个外网，无法访问，报错。
下周工作计划	1. 优先解决代码问题。尝试跑一些其他的小型的代码，或者考虑自己写一些简单的，把各个算法模型之类的都调用试试。然后再去处理跑文献代码报错问题。

学习笔记

1.表征学习

将原始数据转换为适合后续分析和处理的形式（即表征或嵌入）。即将文本属性图的节点、边及其相关的文本信息映射到一个低维的向量空间中，同时尽可能保留图的结构信息和文本语义信息。

2.表征学习的方法和步骤

（1）数据预处理

①文本处理：对节点和边上的文本数据进行清洗（去除噪声、特殊字符等）、分词等操作，然后使用词向量模型（如Word2Vec、GloVe）或预训练的语言模型（如BERT ）将文本转换为向量表示。

②图结构处理：构建图的邻接矩阵来表示节点之间的连接关系，可对邻接矩阵进行归一化等操作。

（2）特征融合

将文本向量和图结构特征进行融合，常见的融合方法有：

①简单拼接：直接将节点的文本向量与图结构编码得到的向量拼接在一起。

②注意力机制融合：利用注意力机制为文本特征和图结构特征分配不同的权重，突出重要信息进行融合。

（3）模型训练与优化

使用合适的损失函数（如交叉熵损失用于分类任务、对比损失用于相似性学习等）来指导模型的训练，通过反向传播算法不断调整模型的参数，以提高表征在下游任务中的性能表现。

3. Bag of Words（词袋模型，简称BoW）

将文本看作是一个无序的词汇集合，忽略文本中单词的语法和词序信息，只关注每个单词在文本中出现的频率。删除像the，and这样的停用词和文本中的低频词，根据剩下文本的词频构建词频向量。局限性：它忽略了语法和语义结构，可能导致在某些情况下无法准确地表示文本内容，无法捕捉到所有的重要信息。

4. Skip-gram（Word2Vec 模型中的一种架构）

基于分布式语义假设，即在一个文本窗口内，具有相似上下文的单词往往具有相似的语义。主要目标是通过一个中心词来预测其上下文语境中的其他词。输入层的输入是一个经过独热编码的中心词向量。

5.独热编码（One-Hot Encoding）

独热编码的核心思想是将一个具有n个不同取值的分类变量，转换为一个长度为n的向量，向量中只有一个元素为1，其余元素均为0。这个为1的元素所在的位置对应着该分类变量的具体取值。

import pandas as pd # 创建包含分类变量的数据框 data = {'颜色': ['红色', '绿色', '蓝色', '红色']} df = pd.DataFrame(data) print(df) # 使用 pandas 的 get_dummies 函数进行独热编码 one_hot_encoded = pd.get_dummies(df['颜色']) print(one_hot_encoded) # 将编码后的结果与原始数据框合并（可选） df = pd.concat([df, one_hot_encoded], axis=1) print(df)

颜色

0 红色

1 绿色

2 蓝色

3 红色

红色绿色蓝色

0 True False False

1 False True False

2 False False True

3 True False False

颜色红色绿色蓝色

0 红色 True False False

1 绿色 False True False

2 蓝色 False False True

3 红色 True False False

6.（TAPE）Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning

（1）本文关键的思想是：解释作为特征。通过提示语言模型去解释他的预测，我们提取相关先验知识和推理步骤，使这些信息能够被较小的模型处理，类似于人类专家如何使用解释来传达见解。

（2）创新点：提出LMaaS-compatible方法，利用大语言模型去增强文本属性图上的表征学习。

①首先，从LLM提取解释信息。

②其次，使用LLM-to-LM解释器将文本解释翻译为结点特征向量表示。

③最后，将特征向量用于处理下游任务的GNNs。

（3）步骤：针对每个节点，生成提示（标题，摘要，问题），LLM生成排好序的预测列表和解释。原始文本orig（标题和摘要），解释文本expl，二者用到了LM和MLP，预测列表pred，独热编码。最终特征：h_TAPE=（h_orig, h_expl, h_pred）。

（4）消融实验指标：验证准确率（Val acc.）、测试准确率（Test acc.）、参数数量（Params.）、最大批量大小（Max bsz.）和总训练时间（Total time）

7.全连接层（Fully Connected Layer），也称为密集连接层（Dense Layer）

在全连接层中，每一个神经元都与前一层的所有神经元相连接。也就是说，对于前一层中的每个输入特征，当前层的每个神经元都会接收其对应的输入，并通过特定的权重进行加权求和，再经过激活函数处理后得到该神经元的输出。激活函数的作用是引入非线性因素，使神经网络能够学习到更复杂的模式和关系。假设前一层有n个神经元，当前全连接层有m个神经元。

（1）加权求和：第j个神经元，将n个输入×对应权重，求和，所得结果+偏置项b_j。

（2）激活函数：将加权求和的结果输入到激活函数f中，得到该神经元的最终输出。

8.MLP多层感知机（Multilayer Perceptron），也称为前馈神经网络（Feedforward Neural Network）

MLP 由输入层、一个或多个隐藏层以及输出层组成，各层之间是全连接的关系（即全连接层）。强大的非线性学习能力。通用性强，可以处理多种类型的数据。

9.GraphEdit: Large Language Models for Graph Structure Learning

（1）目标：首先，识别和解决不相关节点之间的噪声连接；其次，发现隐式的节点依赖关系。

（2）LLM指令微调：

①同质属性指具有相似属性的节点往往具有更强的连接。最大化同一类内的连接，最小化类间的连接。

②在提示创建阶段，每个提示定义了两个单独的目标。1.评估节点对标签的一致性。它使语言模型能够准确地掌握所需的图结构。2.建立在标签一致性的基础上，确定这些节点所属的特定类别。

③随机采样技术，从训练数据N_train中选择节点对（n_i, n_j）。使用均匀分布（Uniform）

（3）基于LLM的边缘预测器：

①轻量级的边缘预测器，识别潜在候选边缘。

②预测层，交叉熵损失函数。

（4）精炼LLM增强的结构：结合边缘预测器与LLM来细化图结构。

①边缘预测器识别前k个候选边缘。

②将其输出与原始邻接矩阵A融合得到A′。

③把A′通过提示交由LLM评估，LLM利用推理能力决定边的添加和删除，生成细化邻接矩阵A^。

④精炼后的邻接矩阵A^作为下游图任务的输入，有助于发现隐式依赖、去噪并改进图表示。

10.GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models

（1）三种提示专家：

①结构感知的总结(SAS Expert)：通过理解锚节点的邻居和自身的语义信息，创建锚节点v的摘要。

②独立推理(IDR Expert)：对锚节点v潜在的类别进行预测，并为其决定提供解释。

③结构感知的推理(SAR Expert)：二者融合。

（2）x特征向量，f文本编码器，S文本属性。

（3）S含SAS、IDR、SAR。每个节点生成四个特征向量，第四个是原始文本属性。

（4）采用一种注意力机制，通过计算注意力系数来动态整合最相关的专家。为了防止忽略了节点统计信息，引入了上下文提示的概念，它描述了每个提示专家的功能和节点统计信息。

（5）协作边缘修改器。该框架利用两种数据模式的共性进行边缘扰动。

11.浅层嵌入模型（Shallow Embedding Models）

自然语言处理和机器学习领域中用于将离散的符号（如词语）转换为连续向量表示的技术。

（1）Word2vec：是由谷歌在2013年提出的一种嵌入模型，旨在将词语映射到高维向量空间中，使得语义上相似的词语在向量空间中距离较近。主要有两种架构：

①Skip-Gram：通过给定一个中心词，预测其上下文词（周围的词语）。

②Continuous Bag of Words (CBOW)：通过给定上下文词，预测中心词。

（2）词袋模型：简单而常用的文本表示方法，它将文本视为词语的集合，忽略语法和词序，仅关注词语的出现频率。

12.GCL图对比学习（Graph Contrastive Learning）

无监督或自监督学习方法，旨在通过对比正样本对和负样本对来学习图的表示。这种方法通过最大化正样本对之间的相似性，同时最小化负样本对之间的相似性，从而有效地捕捉图结构和节点特征中的信息。

13.扰动（Perturbation）

扰动通常指的是对图数据进行一系列变换或增强操作，以生成与原始图数据略有不同的新样本。可增强模型的鲁棒性，在面对数据噪声、缺失信息或轻微变化时依然保持良好的性能。

14.基线（baseline）

指一个基本的、标准的模型或方法，用作比较和评估新方法性能的参照点。通常是已经被广泛接受和验证的模型，或者是在特定任务上表现良好的简单模型。

15. GAINT：一种基于图注意力网络（Graph Attention Networks, GAT）的模型，专门用于极端多标签分类（Extreme Multi-label Classification, XMC）任务。（这里是深层特征）

16.极端多标签分类（XMC）：是多标签分类的一个子领域，其特点是每个样本可能关联的标签数量非常多，通常从几十到数千不等。这与传统的多标签分类任务不同，后者每个样本通常只关联少量的标签。

【GNN数据集】

数据集	Nodes	Edges	Features	Classes	Edge Type
Cora	2708	5429	1433	7	无向图
Citeseer	3327	4732	3703	6	无向图
PubMed	19717	44338	500	3	无向图
Ogbn-Arxiv	169343	1166243	128	40	有向图
Ogbn-Products	2449029	61859140	100	47	无向图
Reddit	232965	11606919	602	50	无向图

数据集	Nodes	Edges	Features	Classes	Edge Type
Cora	2708	5429	1433	7	无向图
Citeseer	3327	4732	3703	6	无向图
PubMed	近2万	4万多	500	3	无向图
Ogbn-Arxiv	近16万	近117万	128	40	有向图
Ogbn-Products	近245万	6千万	100	47	无向图
Reddit	23万多	1千万	602	50	无向图

转载本文请联系原作者获取授权，同时请注明本文来自孙琪科学网博客。

链接地址：https://wap.sciencenet.cn/blog-3623012-1478988.html?mobile=1

分享到:

当前推荐数：1

推荐人：

xtn

推荐到博客首页

网友评论1 条评论

该博文允许注册用户评论请点击登录