学习周报
姓名 | 孙琪 | 时间范围 | 2025.03.17-2025.03.23 | |
周次 | 第4周 | 研究方向 | LLM增强GNN | |
本周完成工作 | 1. 将上周看的三篇论文复习并细致化地看了一遍。并了解了论文中所提到的其他的知识,详见下方笔记。 2. 下载数据集,跑文献代码,但遇到了问题。 | |||
本周 问题汇报 | 1. ①基本明白论文中所出现的各公式符号所代表的含义,但其中的数学原理还需要进一步的学习。②查了里面提到的部分数据集的属性,总结成表格。 2. ①用到Transformer时需要访问一个外网,无法访问,报错。 | |||
下周工作计划 | 1. 优先解决代码问题。尝试跑一些其他的小型的代码,或者考虑自己写一些简单的,把各个算法模型之类的都调用试试。然后再去处理跑文献代码报错问题。 | |||
学习笔记
1.表征学习
将原始数据转换为适合后续分析和处理的形式(即表征或嵌入)。即将文本属性图的节点、边及其相关的文本信息映射到一个低维的向量空间中,同时尽可能保留图的结构信息和文本语义信息。
2.表征学习的方法和步骤
(1)数据预处理
①文本处理:对节点和边上的文本数据进行清洗(去除噪声、特殊字符等)、分词等操作,然后使用词向量模型(如Word2Vec、GloVe)或预训练的语言模型(如BERT )将文本转换为向量表示。
②图结构处理:构建图的邻接矩阵来表示节点之间的连接关系,可对邻接矩阵进行归一化等操作。
(2)特征融合
将文本向量和图结构特征进行融合,常见的融合方法有:
①简单拼接:直接将节点的文本向量与图结构编码得到的向量拼接在一起。
②注意力机制融合:利用注意力机制为文本特征和图结构特征分配不同的权重,突出重要信息进行融合。
(3)模型训练与优化
使用合适的损失函数(如交叉熵损失用于分类任务、对比损失用于相似性学习等)来指导模型的训练,通过反向传播算法不断调整模型的参数,以提高表征在下游任务中的性能表现 。
3. Bag of Words(词袋模型,简称BoW)
将文本看作是一个无序的词汇集合,忽略文本中单词的语法和词序信息,只关注每个单词在文本中出现的频率。删除像the,and这样的停用词和文本中的低频词,根据剩下文本的词频构建词频向量。局限性:它忽略了语法和语义结构,可能导致在某些情况下无法准确地表示文本内容,无法捕捉到所有的重要信息。
4. Skip-gram(Word2Vec 模型中的一种架构)
基于分布式语义假设,即在一个文本窗口内,具有相似上下文的单词往往具有相似的语义。主要目标是通过一个中心词来预测其上下文语境中的其他词。输入层的输入是一个经过独热编码的中心词向量。
5.独热编码(One-Hot Encoding)
独热编码的核心思想是将一个具有n个不同取值的分类变量,转换为一个长度为n的向量,向量中只有一个元素为1,其余元素均为0。这个为1的元素所在的位置对应着该分类变量的具体取值。
import pandas as pd # 创建包含分类变量的数据框 data = {'颜色': ['红色', '绿色', '蓝色', '红色']} df = pd.DataFrame(data) print(df) # 使用 pandas 的 get_dummies 函数进行独热编码 one_hot_encoded = pd.get_dummies(df['颜色']) print(one_hot_encoded) # 将编码后的结果与原始数据框合并(可选) df = pd.concat([df, one_hot_encoded], axis=1) print(df)
颜色
0 红色
1 绿色
2 蓝色
3 红色
红色 绿色 蓝色
0 True False False
1 False True False
2 False False True
3 True False False
颜色 红色 绿色 蓝色
0 红色 True False False
1 绿色 False True False
2 蓝色 False False True
3 红色 True False False
6.(TAPE)Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning
(1)本文关键的思想是:解释作为特征。通过提示语言模型去解释他的预测,我们提取相关先验知识和推理步骤,使这些信息能够被较小的模型处理,类似于人类专家如何使用解释来传达见解。
(2)创新点:提出LMaaS-compatible方法,利用大语言模型去增强文本属性图上的表征学习。
①首先,从LLM提取解释信息。
②其次,使用LLM-to-LM解释器将文本解释翻译为结点特征向量表示。
③最后,将特征向量用于处理下游任务的GNNs。
(3)步骤:针对每个节点,生成提示(标题,摘要,问题),LLM生成排好序的预测列表和解释。原始文本orig(标题和摘要),解释文本expl,二者用到了LM和MLP,预测列表pred,独热编码。最终特征:h_TAPE=(h_orig, h_expl, h_pred)。
(4)消融实验指标:验证准确率(Val acc.)、测试准确率(Test acc.)、参数数量(Params.)、最大批量大小(Max bsz.)和总训练时间(Total time)
7.全连接层(Fully Connected Layer),也称为密集连接层(Dense Layer)
在全连接层中,每一个神经元都与前一层的所有神经元相连接。也就是说,对于前一层中的每个输入特征,当前层的每个神经元都会接收其对应的输入,并通过特定的权重进行加权求和,再经过激活函数处理后得到该神经元的输出。激活函数的作用是引入非线性因素,使神经网络能够学习到更复杂的模式和关系。假设前一层有n个神经元,当前全连接层有m个神经元。
(1)加权求和:第j个神经元,将n个输入×对应权重,求和,所得结果+偏置项b_j。
(2)激活函数:将加权求和的结果输入到激活函数f中,得到该神经元的最终输出。
8.MLP多层感知机(Multilayer Perceptron),也称为前馈神经网络(Feedforward Neural Network)
MLP 由输入层、一个或多个隐藏层以及输出层组成,各层之间是全连接的关系(即全连接层)。强大的非线性学习能力。通用性强,可以处理多种类型的数据。
9.GraphEdit: Large Language Models for Graph Structure Learning
(1)目标:首先,识别和解决不相关节点之间的噪声连接;其次,发现隐式的节点依赖关系。
(2)LLM指令微调:
①同质属性指具有相似属性的节点往往具有更强的连接。最大化同一类内的连接,最小化类间的连接。
②在提示创建阶段,每个提示定义了两个单独的目标。1.评估节点对标签的一致性。它使语言模型能够准确地掌握所需的图结构。2.建立在标签一致性的基础上,确定这些节点所属的特定类别。
③随机采样技术,从训练数据N_train中选择节点对(n_i, n_j)。使用均匀分布(Uniform)
(3)基于LLM的边缘预测器:
①轻量级的边缘预测器,识别潜在候选边缘。
②预测层,交叉熵损失函数。
(4)精炼LLM增强的结构:结合边缘预测器与LLM来细化图结构。
①边缘预测器识别前k个候选边缘。
②将其输出与原始邻接矩阵A融合得到A′。
③把A′通过提示交由LLM评估,LLM利用推理能力决定边的添加和删除,生成细化邻接矩阵A^。
④精炼后的邻接矩阵A^作为下游图任务的输入 ,有助于发现隐式依赖、去噪并改进图表示。
10.GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models
(1)三种提示专家:
①结构感知的总结(SAS Expert):通过理解锚节点的邻居和自身的语义信息,创建锚节点v的摘要。
②独立推理(IDR Expert):对锚节点v潜在的类别进行预测,并为其决定提供解释。
③结构感知的推理(SAR Expert):二者融合。
(2)x特征向量,f文本编码器,S文本属性。
(3)S含SAS、IDR、SAR。每个节点生成四个特征向量,第四个是原始文本属性。
(4)采用一种注意力机制,通过计算注意力系数来动态整合最相关的专家。为了防止忽略了节点统计信息,引入了上下文提示的概念,它描述了每个提示专家的功能和节点统计信息。
(5)协作边缘修改器。该框架利用两种数据模式的共性进行边缘扰动。
11.浅层嵌入模型(Shallow Embedding Models)
自然语言处理和机器学习领域中用于将离散的符号(如词语)转换为连续向量表示的技术。
(1)Word2vec:是由谷歌在2013年提出的一种嵌入模型,旨在将词语映射到高维向量空间中,使得语义上相似的词语在向量空间中距离较近。主要有两种架构:
①Skip-Gram:通过给定一个中心词,预测其上下文词(周围的词语)。
②Continuous Bag of Words (CBOW):通过给定上下文词,预测中心词。
(2)词袋模型:简单而常用的文本表示方法,它将文本视为词语的集合,忽略语法和词序,仅关注词语的出现频率。
12.GCL图对比学习(Graph Contrastive Learning)
无监督或自监督学习方法,旨在通过对比正样本对和负样本对来学习图的表示。这种方法通过最大化正样本对之间的相似性,同时最小化负样本对之间的相似性,从而有效地捕捉图结构和节点特征中的信息。
13.扰动(Perturbation)
扰动通常指的是对图数据进行一系列变换或增强操作,以生成与原始图数据略有不同的新样本。可增强模型的鲁棒性,在面对数据噪声、缺失信息或轻微变化时依然保持良好的性能。
14.基线(baseline)
指一个基本的、标准的模型或方法,用作比较和评估新方法性能的参照点。通常是已经被广泛接受和验证的模型,或者是在特定任务上表现良好的简单模型。
15. GAINT:一种基于图注意力网络(Graph Attention Networks, GAT)的模型,专门用于极端多标签分类(Extreme Multi-label Classification, XMC)任务。(这里是深层特征)
16.极端多标签分类(XMC):是多标签分类的一个子领域,其特点是每个样本可能关联的标签数量非常多,通常从几十到数千不等。这与传统的多标签分类任务不同,后者每个样本通常只关联少量的标签。
【GNN数据集】
数据集 | Nodes | Edges | Features | Classes | Edge Type |
Cora | 2708 | 5429 | 1433 | 7 | 无向图 |
Citeseer | 3327 | 4732 | 3703 | 6 | 无向图 |
PubMed | 19717 | 44338 | 500 | 3 | 无向图 |
Ogbn-Arxiv | 169343 | 1166243 | 128 | 40 | 有向图 |
Ogbn-Products | 2449029 | 61859140 | 100 | 47 | 无向图 |
232965 | 11606919 | 602 | 50 | 无向图 |
数据集 | Nodes | Edges | Features | Classes | Edge Type |
Cora | 2708 | 5429 | 1433 | 7 | 无向图 |
Citeseer | 3327 | 4732 | 3703 | 6 | 无向图 |
PubMed | 近2万 | 4万多 | 500 | 3 | 无向图 |
Ogbn-Arxiv | 近16万 | 近117万 | 128 | 40 | 有向图 |
Ogbn-Products | 近245万 | 6千万 | 100 | 47 | 无向图 |
23万多 | 1千万 | 602 | 50 | 无向图 |
转载本文请联系原作者获取授权,同时请注明本文来自孙琪科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3623012-1478988.html?mobile=1
收藏