OpenGraph 提交给奥菲斯
量子比特|公众号QbitAI
有一种新方法可以缓解图学习领域的数据匮乏问题!
OpenGraph,一种基于图的基本模型,专门为各种图数据集的零样本预测而设计。
幕后黑手是港大数据智能实验室主任黄超团队。他们还提出了图模型的提示调整技术,以提高模型对新任务的适应性。
目前,该工作已发布在GitHub 上。
据介绍,这项工作主要探索增强图模型泛化能力的深度策略(特别是当训练和测试数据存在显着差异时)。
OpenGraph旨在通过学习通用图结构模式并仅通过前向传播进行预测来实现全新数据的零样本预测。
为了实现这一目标,团队解决了以下三个挑战:
数据集之间的token差异:不同的图数据集往往有不同的图token集,我们需要模型能够跨数据集进行预测。节点关系建模:在构建通用图模型时,有效地建模节点关系至关重要,这关系到模型的可扩展性和效率。数据稀缺:面对数据获取的问题,我们通过大型语言模型进行数据增强,模拟复杂的图结构关系,提高模型训练的质量。 OpenGraph通过拓扑感知的图Tokenizer和基于锚的图Transformer等一系列创新方法有效解决了上述挑战,并且在多个数据集上的测试结果证明了模型出色的泛化能力。
OpenGraph模型OpenGraph模型架构主要由3个核心部分组成:
1)统一图分词器; 2)可扩展的图Transformer; 3)基于大语言模型的知识蒸馏技术。
首先我们来谈谈统一图Tokenizer。
为了适应不同数据集中节点和边的差异,团队开发了统一的图Tokenizer,将图数据规范化为token序列。
此过程包括高阶邻接矩阵平滑和拓扑感知映射。
高阶邻接矩阵平滑利用邻接矩阵的高阶幂来解决稀疏连接的问题,而拓扑感知映射将邻接矩阵转换为节点序列并使用快速奇异值分解(SVD)来最小化信息损失并保留更多的图结构信息。
其次是可扩展的图Transformer。
标记化后,OpenGraph使用Transformer架构来模拟节点之间的依赖关系,主要使用以下技术来优化模型性能和效率:
第一个是token序列采样,利用采样技术来减少模型需要处理的关系数量,从而降低训练的时间和空间复杂度。
二是锚点采样的自注意力机制。该方法通过学习节点之间阶段性的信息传递,进一步降低了计算复杂度,有效提高了模型的训练效率和稳定性。
最后是大语言模型的知识蒸馏。
为了解决训练通用图模型时面临的数据隐私和类别多样性问题,团队从大语言模型(LLM)的知识和理解能力中汲取灵感,利用LLM生成各种图结构数据。
这种数据增强机制通过模拟现实世界图的特征,有效提高了数据的质量和实用性。
该团队还首先开发了一组针对特定应用程序定制的节点,每个节点都有用于生成边的文本描述。
当面对电子商务平台等大规模节点集时,研究人员通过将节点细分为更具体的子类别来处理这一问题。
例如,从“电子产品”到具体的“手机”、“笔记本电脑”等,不断重复这个过程,直到节点被细化到接近真实实例。
提示树算法根据树结构对节点进行细分,生成更详细的实体。
从“产品”等一般类别开始,逐步细化到具体的子类别,最终形成节点树。
至于边缘生成,研究人员使用吉布斯采样根据生成的节点集形成边缘。
为了减少计算负担,我们不直接通过LLM遍历所有可能的边。相反,我们首先使用LLM计算节点之间的文本相似度,然后使用简单的算法来确定节点关系。
在此基础上,团队推出了多项技术调整:
动态概率归一化:通过动态调整,将相似度映射到更适合采样的概率范围。节点局部性:引入局部性的概念,仅在局部节点子集之间建立连接,以模拟现实世界中的网络局部性。图拓扑模式注入:使用图卷积网络修改节点表示,以更好地适应图结构特征并减少分布偏差。上述步骤保证了生成的图数据不仅丰富多样,而且接近现实世界的连接模式和结构特征。
实验验证和性能分析需要注意的是,本实验侧重于使用仅由LLM生成的数据集训练OpenGraph模型,并在多样化的真实场景数据集上进行测试,涵盖节点分类和链路预测任务。
实验设计如下:
零样本设置。
为了评估OpenGraph 在未见过的数据上的性能,我们在生成的训练集上训练模型,然后在完全不同的真实测试集上对其进行评估。它确保训练和测试数据在节点、边和特征上没有重叠。
很少有示例设置。
考虑到许多方法难以有效地执行零样本预测,我们引入了少样本设置,其中基线模型在预训练数据上进行预训练,然后使用k 样本样本进行微调。
2 个任务和8 个测试集的结果表明,OpenGraph 在零样本预测方面显着优于现有方法。
此外,现有的预训练模型有时比在跨数据集任务上从头开始训练的模型表现更差。
图Tokenizer设计的影响研究同时,团队探索了图Tokenizer设计如何影响模型性能。
首先,通过实验发现,不进行邻接矩阵平滑(平滑阶数为0)会明显降低性能,说明平滑的必要性。
然后,研究人员尝试了几种简单的拓扑感知替代方案:跨数据集的单热编码ID、随机映射和基于节点度的表示。
实验结果表明这些替代方案的性能并不理想。
具体来说,跨数据集的ID 表示最差,基于度的表示也表现不佳,而随机映射虽然稍好一些,但与优化的拓扑感知映射相比具有显着的性能差距。
数据生成技术的影响该团队研究了不同预训练数据集对OpenGraph 性能的影响,包括使用基于LLM 的知识蒸馏方法生成的数据集,以及几个现实世界的数据集。
实验中对比的预训练数据集包括1个从团队生成方式中去除某种技术后的数据集、2个与测试数据集无关的真实数据集(Yelp2018和Gowalla)、1个真实数据集与测试数据集类似。数据集(ML-10M)。
实验结果表明,生成的数据集在所有测试集上都表现出了良好的性能;删除三代技术显着影响性能,验证了这些技术的有效性。
当使用与测试集无关的真实数据集(例如Yelp 和Gowalla)进行训练时,性能有时会下降,这可能是由于不同数据集之间的分布差异所致。
ML-10M 数据集在ML-1M 和ML-10M 等类似测试数据集上实现了最佳性能,凸显了训练数据集和测试数据集之间相似性的重要性。
Transformer采样技术研究在这部分实验中,研究团队探索了图Transformer模块中使用的两种采样技术:
令牌序列采样(Seq)和锚点采样(Anc)。
他们对两种采样方法进行了详细的消融实验,以评估它们对模型性能的具体影响。
实验结果表明,令牌序列采样和锚点采样都可以有效降低模型在训练和测试阶段的空间和时间复杂度。这对于处理大规模图数据尤其重要,可以显着提高效率。
从性能角度来看,令牌序列采样对模型的整体性能有积极的影响。这种采样策略通过选择关键标记来优化图的表示,从而提高模型处理复杂图结构的能力。
相比之下,DDI 数据集上的实验表明锚点采样会对模型性能产生负面影响。锚点采样通过选择特定节点作为锚点来简化图结构,但这种方法可能会忽略一些关键的图结构信息,从而影响模型的准确性。
综上所述,虽然两种采样技术各有优势,但在实际应用中,需要根据具体的数据集和任务要求仔细选择合适的采样策略。
研究结论本研究旨在开发一种高度适应性的框架,能够准确识别和解析各种图结构的复杂拓扑模式。
研究人员的目标是通过充分利用所提出模型的功能,显着增强模型在零样本图学习任务(包括多个下游应用)中的泛化能力。
该模型是在可扩展的图Transformer 架构和LLM 增强的数据增强机制的支持下构建的,以提高OpenGraph 的效率和鲁棒性。
通过对多个标准数据集的广泛测试,团队展示了模型出色的泛化性能。
据了解,作为构建基于图的模型的初步尝试,未来团队的工作重点将放在增加框架的自动化能力上,包括自动识别噪声连接和进行反事实学习。
同时,团队计划学习并提取各种图结构的通用且可迁移的模式,以进一步提升模型的应用范围和效果。
参考链接:
[1]论文:
https://arxiv.org/pdf/2403.01121.pdf
[2] 源码库:
https://github.com/HKUDS/OpenGraph
- 超过-
量子位QbitAI·今日头条签约
关注我们,第一时间了解前沿技术动态