孙琪
2025.03.17-2025.03.23
2025-3-23 23:45
阅读:491

学习周报

姓名

孙琪

时间范围

2025.03.17-2025.03.23

周次

4

研究方向

LLM增强GNN

本周完成工作

1.      将上周看的三篇论文复习并细致化地看了一遍。并了解了论文中所提到的其他的知识,详见下方笔记。

2.      下载数据集,跑文献代码,但遇到了问题。

本周

问题汇报

1.      ①基本明白论文中所出现的各公式符号所代表的含义,但其中的数学原理还需要进一步的学习。②查了里面提到的部分数据集的属性,总结成表格。

2.      ①用到Transformer时需要访问一个外网,无法访问,报错。

下周工作计划

1.      优先解决代码问题。尝试跑一些其他的小型的代码,或者考虑自己写一些简单的,把各个算法模型之类的都调用试试。然后再去处理跑文献代码报错问题。

学习笔记

1.表征学习

将原始数据转换为适合后续分析和处理的形式(即表征或嵌入)。即将文本属性图的节点、边及其相关的文本信息映射到一个低维的向量空间中,同时尽可能保留图的结构信息和文本语义信息。

 

2.表征学习的方法和步骤

1)数据预处理

文本处理:对节点和边上的文本数据进行清洗(去除噪声、特殊字符等)、分词等操作,然后使用词向量模型(如Word2VecGloVe)或预训练的语言模型(如BERT )将文本转换为向量表示。

图结构处理:构建图的邻接矩阵来表示节点之间的连接关系,可对邻接矩阵进行归一化等操作。

 

2)特征融合

将文本向量和图结构特征进行融合,常见的融合方法有:

简单拼接:直接将节点的文本向量与图结构编码得到的向量拼接在一起。

注意力机制融合:利用注意力机制为文本特征和图结构特征分配不同的权重,突出重要信息进行融合。

 

3)模型训练与优化

使用合适的损失函数(如交叉熵损失用于分类任务、对比损失用于相似性学习等)来指导模型的训练,通过反向传播算法不断调整模型的参数,以提高表征在下游任务中的性能表现

 

3. Bag of Words(词袋模型,简称BoW

将文本看作是一个无序的词汇集合,忽略文本中单词的语法和词序信息,只关注每个单词在文本中出现的频率。删除像theand这样的停用词和文本中的低频词,根据剩下文本的词频构建词频向量。局限性:它忽略了语法和语义结构,可能导致在某些情况下无法准确地表示文本内容,无法捕捉到所有的重要信息。

 

4. Skip-gramWord2Vec 模型中的一种架构)

基于分布式语义假设,即在一个文本窗口内,具有相似上下文的单词往往具有相似的语义。主要目标是通过一个中心词来预测其上下文语境中的其他词。输入层的输入是一个经过独热编码的中心词向量。

 

5.独热编码(One-Hot Encoding

独热编码的核心思想是将一个具有n个不同取值的分类变量,转换为一个长度为n的向量,向量中只有一个元素为1,其余元素均为0。这个为1的元素所在的位置对应着该分类变量的具体取值。

import pandas as pd # 创建包含分类变量的数据框 data = {'颜色': ['红色', '绿色', '蓝色', '红色']} df = pd.DataFrame(data) print(df) # 使用 pandas get_dummies 函数进行独热编码 one_hot_encoded = pd.get_dummies(df['颜色']) print(one_hot_encoded) # 将编码后的结果与原始数据框合并(可选) df = pd.concat([df, one_hot_encoded], axis=1) print(df)

 

   颜色

红色

绿色

蓝色

红色

 

      红色     绿色     蓝色

0   True  False  False

1  False   True  False

2  False  False   True

3   True  False  False

 

   颜色     红色     绿色     蓝色

红色   True  False  False

绿色  False   True  False

蓝色  False  False   True

红色   True  False  False

 

6.TAPEHarnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning

1)本文关键的思想是:解释作为特征。通过提示语言模型去解释他的预测,我们提取相关先验知识和推理步骤,使这些信息能够被较小的模型处理,类似于人类专家如何使用解释来传达见解。

2)创新点:提出LMaaS-compatible方法,利用大语言模型去增强文本属性图上的表征学习。

①首先,从LLM提取解释信息。

②其次,使用LLM-to-LM解释器将文本解释翻译为结点特征向量表示。

③最后,将特征向量用于处理下游任务的GNNs

3)步骤:针对每个节点,生成提示(标题,摘要,问题),LLM生成排好序的预测列表和解释。原始文本orig(标题和摘要),解释文本expl,二者用到了LMMLP,预测列表pred,独热编码。最终特征:h_TAPE=h_orig, h_expl, h_pred)。

4)消融实验指标:验证准确率(Val acc.)、测试准确率(Test acc.)、参数数量(Params.)、最大批量大小(Max bsz.)和总训练时间(Total time

 

7.全连接层(Fully Connected Layer),也称为密集连接层(Dense Layer

在全连接层中,每一个神经元都与前一层的所有神经元相连接。也就是说,对于前一层中的每个输入特征,当前层的每个神经元都会接收其对应的输入,并通过特定的权重进行加权求和,再经过激活函数处理后得到该神经元的输出。激活函数的作用是引入非线性因素,使神经网络能够学习到更复杂的模式和关系。假设前一层有n个神经元,当前全连接层有m个神经元。

1加权求和:第j个神经元,将n个输入×对应权重,求和,所得结果+偏置项b_j

2激活函数:将加权求和的结果输入到激活函数f中,得到该神经元的最终输出。

 

8.MLP多层感知机(Multilayer Perceptron),也称为前馈神经网络(Feedforward Neural Network

MLP 由输入层、一个或多个隐藏层以及输出层组成,各层之间是全连接的关系(即全连接层)。强大的非线性学习能力。通用性强,可以处理多种类型的数据。

 

9.GraphEdit: Large Language Models for Graph Structure Learning

1)目标:首先,识别和解决不相关节点之间的噪声连接;其次,发现隐式的节点依赖关系。

2LLM指令微调:

①同质属性指具有相似属性的节点往往具有更强的连接。最大化同一类内的连接,最小化类间的连接。

②在提示创建阶段,每个提示定义了两个单独的目标。1.评估节点对标签的一致性。它使语言模型能够准确地掌握所需的图结构。2.建立在标签一致性的基础上,确定这些节点所属的特定类别。

③随机采样技术,从训练数据N_train中选择节点对(n_i, n_j)。使用均匀分布(Uniform

3)基于LLM的边缘预测器:

①轻量级的边缘预测器,识别潜在候选边缘。

②预测层,交叉熵损失函数。

4)精炼LLM增强的结构:结合边缘预测器与LLM来细化图结构。

①边缘预测器识别前k个候选边缘。

②将其输出与原始邻接矩阵A融合得到A′。

③把A′通过提示交由LLM评估,LLM利用推理能力决定边的添加和删除,生成细化邻接矩阵A^

④精炼后的邻接矩阵A^作为下游图任务的输入 ,有助于发现隐式依赖、去噪并改进图表示。

 

10.GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models

1)三种提示专家:

①结构感知的总结(SAS Expert):通过理解锚节点的邻居和自身的语义信息,创建锚节点v的摘要。

独立推理(IDR Expert)对锚节点v潜在的类别进行预测,并为其决定提供解释。

③结构感知的推理(SAR Expert):二者融合。

2x特征向量,f文本编码器,S文本属性。

3SSASIDRSAR。每个节点生成四个特征向量,第四个是原始文本属性。

4)采用一种注意力机制,通过计算注意力系数来动态整合最相关的专家。为了防止忽略了节点统计信息,引入了上下文提示的概念,它描述了每个提示专家的功能和节点统计信息。

5)协作边缘修改器。该框架利用两种数据模式的共性进行边缘扰动。

 

11.浅层嵌入模型(Shallow Embedding Models

自然语言处理和机器学习领域中用于将离散的符号(如词语)转换为连续向量表示的技术。

1Word2vec:是由谷歌在2013年提出的一种嵌入模型,旨在将词语映射到高维向量空间中,使得语义上相似的词语在向量空间中距离较近。主要有两种架构:

Skip-Gram:通过给定一个中心词,预测其上下文词(周围的词语)。

Continuous Bag of Words (CBOW):通过给定上下文词,预测中心词。

2词袋模型:简单而常用的文本表示方法,它将文本视为词语的集合,忽略语法和词序,仅关注词语的出现频率。

 

12.GCL图对比学习(Graph Contrastive Learning

无监督或自监督学习方法,旨在通过对比正样本对和负样本对来学习图的表示。这种方法通过最大化正样本对之间的相似性,同时最小化负样本对之间的相似性,从而有效地捕捉图结构和节点特征中的信息。

 

13.扰动(Perturbation

扰动通常指的是对图数据进行一系列变换或增强操作,以生成与原始图数据略有不同的新样本。可增强模型的鲁棒性,在面对数据噪声、缺失信息或轻微变化时依然保持良好的性能。

 

14.基线(baseline

指一个基本的、标准的模型或方法,用作比较和评估新方法性能的参照点。通常是已经被广泛接受和验证的模型,或者是在特定任务上表现良好的简单模型。

 

15. GAINT:一种基于图注意力网络(Graph Attention Networks, GAT)的模型,专门用于极端多标签分类(Extreme Multi-label Classification, XMC)任务。(这里是深层特征)

 

16.极端多标签分类(XMC:是多标签分类的一个子领域,其特点是每个样本可能关联的标签数量非常多,通常从几十到数千不等。这与传统的多标签分类任务不同,后者每个样本通常只关联少量的标签。

GNN数据集】

数据集

Nodes

Edges

Features

Classes

Edge Type

Cora

2708

5429

1433

7

无向图

Citeseer

3327

4732

3703

6

无向图

PubMed

19717

44338

500

3

无向图

Ogbn-Arxiv

169343

1166243

128

40

有向图

Ogbn-Products

2449029

61859140

100

47

无向图

Reddit

232965

11606919

602

50

无向图

 

数据集

Nodes

Edges

Features

Classes

Edge Type

Cora

2708

5429

1433

7

无向图

Citeseer

3327

4732

3703

6

无向图

PubMed

2

4万多

500

3

无向图

Ogbn-Arxiv

16

117

128

40

有向图

Ogbn-Products

245

6千万

100

47

无向图

Reddit

23万多

1千万

602

50

无向图

 

转载本文请联系原作者获取授权,同时请注明本文来自孙琪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3623012-1478988.html?mobile=1

收藏

分享到:

上一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?