当机器学习遇见拓扑:拓扑数据分析与拓扑深度学习,浅谈拓扑

出境入境2024-03-14 16:03小乐

当机器学习遇见拓扑:拓扑数据分析与拓扑深度学习,浅谈拓扑

简介作为数学的一个分支,拓扑学以独特的方式描述空间的性质和结构。近年来,几何和拓扑在机器学习中得到了广泛的应用,尤其是拓扑模型,在数据表示和特征提取中发挥着重要作用。拓扑数据分析(TDA)植根于代数拓扑和计算拓扑。它在处理结构化数据方面得到了很大的发展,并逐渐成为人工智能数学的一个重要方面。在极智社“数学与人工智能读书会”中,夏克林老师讨论了拓扑数据分析(TDA)的主要思想和模型。首先,他介绍了基本的拓扑数据表示模型,特别是基于简单数据的复合体结构,以及与传统图模型的区别,然后介绍了基于简单复合体的拓扑深度学习。拓扑数据分析在描述复杂的高阶相互作用方面显示出巨大的优势,特别是它可以描述系统最本质的拓扑信息。拓扑数据分析将进一步促进我们对数据本质信息的挖掘和表征,为提高机器学习模型的准确性、可解释性和可迁移性奠定坚实的数学基础。研究领域:复杂系统、人工智能数学、拓扑数据分析、简单复杂、拓扑深度学习、图神经网络、过滤流过程夏克林|演讲者王志宏|主办:梁进|编辑目录1.数据的拓扑表示2.拓扑数据处理的特点3.拓扑深度学习4.基于简单复杂的图神经网络本文以分子数据处理为出发点,探讨拓扑数据的应用和特点分析(TDA)。 AI数据处理中的两个关键环节,——数据表示和建模分析特征,与拓扑数据分析密切相关。接下来我们就来介绍一下这两个环节。图1. 基于人工智能的分子数据分析

陶津、纪尧姆等人。 “giotto-tda: 用于机器学习和数据探索的拓扑数据分析工具包。”机器学习研究杂志22.1 (2021): 1834-1839。文章总结了拓扑数据与机器学习结合的相关理论。查扎尔、弗雷德里克和伯特兰·米歇尔。 “为数据科学家介绍拓扑数据分析: 的基本和实践方面。”人工智能前沿4(2021): 108。

1.1 数据表示在处理图像数据时,我们可以使用神经网络模型来生成相应的数据表示。例如,人脸识别是通过提取特定特征点构建网格模型来进行的。除了网格模型之外,还有其他不同的数据表示方法,例如特征图和热图。虽然源自相同的图像数据,但从数学角度可以建立不同的模型:最简单的矩阵模型,或者点阵模型、网格模型,甚至更复杂的函数模型。一旦建立了数学模型,就可以根据模型提取特征并与后续感兴趣的信息连接起来,例如通过多层感知器(MLP)进行预测。图2.人脸识别模型同样,在处理分子数据(例如小分子数据和蛋白质数据)时,也有许多不同的数据表示方法。一种常见的方法是基于共价键的图表示,其中每个节点代表一个原子,边代表共价键,形成图表示。图3. 不同的分子模型。此外,还有几何方法,例如将原子视为具有固定半径的球体。观察者可以研究球体集合的外部,即分子的表面,并观察其表面积或凸凹区域。这些凸凹区域与原子间相互作用的信息有关,这种描述更加几何化。此外,密度泛函理论可用于计算电子密度或电子函数分布,将分子数据转换为数据表示的空间形式。因此,尽管源自相同的分子数据,我们可以从多个角度来表征它。一旦表征完成,可以基于此提取各种特征,包括各种指纹和描述符等。这些特性可能与你最终想要了解的功能有关,例如水溶性、脂溶性、毒性等。 1.2分子结构建模在建立分子功能模型的过程中,广泛使用结构数据。这是因为分子的结构与其功能之间存在很强的关系,称为“结构-功能关系”。例如,离子通道蛋白的显着特征是它们的中心有一个孔(图4 左上)。该孔对于离子通道的功能至关重要,因为它有助于细胞膜外的离子进入细胞膜,或膜内的离子离开细胞。另一个例子是蛋白质笼(图4 右下角)。这种蛋白质的表面有一定的结构,但其内部是空的,就像一个用来存放东西的盒子。这种中空结构有利于储存某些物质。和交通。最后一个例子是具有两个由柔性接头区域连接的固定区域的分子。这种结构可以产生开关状态,使分子处于激发或非激发状态,影响其功能。图4.蛋白质分子结构无论是通过共价键连接还是通过非共价相互作用连接,都会影响最终的稳态结构,这与分子功能密切相关。因此,描述分子的结构对于理解其功能起着重要作用。为了更好地表征分子的结构,提取了大量的描述符(无论是组合的、世代的还是几何的)。在这些描述符中,有些侧重于拓扑属性,例如图上的向量、几何量等,而另一些则侧重于组合或邻近信息的指纹。图5. 化学描述符。在大量的结构描述中,可能存在一些更本质、更全局的量,能够更好地捕捉结构的整体信息,从而对理解和描述分子的功能发挥作用。更重要的作用。这就引出了拓扑数据处理的核心:通过拓扑不变量来描述数据。

与传统工具相比,拓扑数据分析具有三个主要特点: 1)简单复杂:采用简单复杂的描述方法,可以捕获数据中比图描述更丰富的拓扑和几何信息。 2)拓扑不变量:拓扑数据分析使用拓扑不变量而不是仅仅依赖统计或描述量。这些拓扑不变量可以提供对数据的深入理解,包括数据连接性和空洞等复杂结构。 3)过滤流过程:拓扑数据分析包含过滤流过程,可以很好地与系统内部的多尺度描述结合。通过观察和分析不同尺度的数据,我们可以获得更全面的信息。 2.1 简单复杂在计算机科学、工程学、生物学等非数学领域,人们通常使用图来表达实体之间的连接关系。然而,在基础数学领域,更常使用一种称为简单复形的描述方法。作为一种先进的拓扑工具,单纯复形可以更好地描述复杂系统中的结构信息。与图相比,单纯复形有几个重要的区别: 1)高维描述:除了表示节点和边(即0维和1维对象)之外,单纯复形还可以表示更高维的对象。例如,实心三角形表示2 维对象,实心四面体表示3 维对象。图6.图和单纯复形2)高阶交互:图主要描述两个实体之间的交互,通过引入“更高维单元”,单纯复形可以表达两个以上的实体。相互作用。例如,实心三角形表示三个实体之间的交互,实心四面体表示四个实体之间的交互。注意两者的区别,用一个形象的比喻来解释:一张图可以代表父亲和孩子的关系,也可以代表母亲和孩子的关系;一张图可以代表父亲和孩子的关系,也可以代表母亲和孩子的关系;而情结则可以代表由父亲、母亲和孩子组成的家庭单位之间的关系。使用填充的二维三角形。 3)距离和体积的描述:图形通常只能描述路径或距离,而简单的复合体可以描述面积、两侧之间的角度(二维单位)或体积(3维单位)。这为我们提供了更高阶的信息,使我们能够捕获实体之间更复杂的交互。举一个简单的例子,从一组点和固定距离构造一个复形(Vietoris-Rips 复形): 图7. 在微分拓扑中,基于函数导数采用的信息,Vietoris-Rips 复形可能更复杂值0 其正定性将流形分为多个部分(莫尔斯复数):图8. 莫尔斯复数

马吉洛,保拉,等人。 “计算地形形态的离散方法。”计算机视觉和计算机图形学。理论与应用: 国际会议VISIGRAPP 2007,西班牙巴塞罗那,2007 年3 月8 日至11 日。修订后的精选论文。 Springer Berlin Heidelberg,2008。提取莫尔斯复数的离散方法

2.2 拓扑不变量拓扑不变量是拓扑空间性质的表征,为数据分析提供了全局的、本质的视角。与PCA等统计方法相比,它更注重整体的属性。我们举两个拓扑不变量的经典例子: 1)欧拉特征数:欧拉特征数的值为“减加”(V-E+F)。对于拓扑上等价于球体的多面体(如立方体或八面体等),欧拉特征数为2。这是因为从拓扑意义上来说,这些形状可以连续变形为球体。图9 四面体和六面体的欧拉特征数2)贝蒂数:贝蒂数是拓扑数据分析(TDA)中常用的拓扑不变量,用于描述拓扑空间的复杂性。零维贝蒂数表示相连分支的数量,一维贝蒂数表示独立环的数量,二维贝蒂数表示“空心”球体的数量,依此类推。图10 贝蒂数描述分子结构2.3 过滤流动过程过滤流动过程(过滤)是拓扑数据分析的核心概念。这个过程可以理解为不断改变尺度,观察复杂系统如何随着尺度的变化而变化。过滤流过程描述了不同尺度的单纯复形,并生成相应的条形码来记录每个尺度的拓扑信息。图11. 过滤流程。上图左边的十四个点代表原始数据。每个点周围都有一个球体。随着时间的推移,这些球体的半径不断增加。当两个球体接触时,表明两个数据点之间存在连接,形成一条边,独立分支的数量减少1。在过滤流动过程中,随着球体半径的增加,独立单元的数量逐渐减少,同时出现新的拓扑结构(如环和更高维的孔)。从图中的条形码可以看出,最初有14个独立节点,所以Betti为14。随着时间的推移,球体之间的连接数量增加,独立节点数量减少。同时,当出现闭合路径时,就会形成一个环,这一变化可以在Betti 的条形码中看到。图12. Vietoris-Rips 复形和单纯复形通过过滤流程和单纯复形,我们可以从全局和多尺度的角度理解复杂系统的结构,并通过拓扑不变量(例如Betti 数)来量化这些属性。该方法在机器学习和迁移学习等领域具有重要的应用。与传统统计工具相比,它提供了对数据深层本质结构的理解。图13 多尺度单纯复形3.1 拓扑深度学习的基本过程。前面的讨论更多是从数学角度出发。在处理现实问题时,我们应该如何将拓扑理论应用于化学分子等具体科学问题?以碳60分子为例。 C是由60个碳原子组成的分子。它的形状类似于足球,包含12个五元环和20个六元环。如下图所示,我们使用拓扑数据分析进行分析,x轴代表直径。图14. C 分子模型的Betti 数与直径的关系• 在Betti-0 中,有60 个条形码,其中30 个较短,30 个较长。较短的代表碳碳双键,因为双键更强,将原子拉得更近,而较长的代表碳碳单键,比双键弱,所以距离稍长。这样,Betti-0描述了共价键的信息。 • 在Betti-1 中,有32 个条形码,其中12 个较短,20 个较长。较短的对应于五元环,而较长的对应于六元环。因此,Betti-1描述了环的信息。 • 在Betti-2中,可以看到很长的条形码,它对应于C分子整体的中空结构。有了这些特征信息,我们将拓扑数据分析与机器学习结合起来。

例如,对数据构造不同类型的简单复合体,进行过滤处理,获取条形码,然后提取各种特征(例如最长条形码、最短条形码、总量等),并将这些特征输入到机器学习中模型(例如随机森林或梯度提升树)执行函数预测等任务。这样就实现了拓扑深度学习的基本流程。图15 拓扑深度学习的基本流程3.2 领域相关工作在拓扑数据分析(TDA)与机器学习相结合的研究领域,魏国伟教授及其团队做了很多创新性的工作。他们通过TDA 提取数据集的特征,并将这些特征用于各种预测任务。过去几年,在图网络尚未广泛使用、可处理的数据量相对较小(通常在三千到四千之间)的时代,他们的研究结果表明,TDA 可以提取比传统方法更好的结果统计方法。或在某些组合中更有效的特征。图16. 基于拓扑学习的预测。从多个基准数据集的结果来看,他们基于TDA的模型表现非常好。尤其值得注意的是,在D3R药物设计竞赛中,他们通过结合TDA和机器学习方法,在2017年和2018年的比赛中都取得了显着的优势,并超越了许多传统方法。他们早期在TDA与机器学习相结合的研究方向上的工作为该领域奠定了坚实的基础。图17. D3R 药物设计竞赛

苍、紫轩、林暮、国伟伟。 “基于机器学习的评分和虚拟筛选中生物分子的代数拓扑的可表示性。” PLoS 计算生物学14.1 (2018): e1005929。拓扑机器学习模型预测配体蛋白结合能。 Nguyen、Duc Duy 等人。 “MathDL: 用于D3R Grand Challenge 4 的数学深度学习。”计算机辅助分子设计杂志34(2020): 131-147。应用于药物设计的拓扑机器学习模型。

3.3 持久谱:谱法与滤波流程相结合

在观察和分析数据时,主要有两种方式:一是考虑数据的表示形式,二是利用数据的特征。在前面的讨论中,我们主要关注了拓扑的特征,包括各种拓扑不变量,它们描述了结构的复杂性。另一方面,当我们想要保留数据的更精细特征时,我们需要考虑数据的其他数学不变量。例如,对于图或单纯复形,我们可以考虑谱图方法及其扩展,它基于图、单纯复形或超图上的离散拉普拉斯算子(Hodge Laplacian),并利用其谱信息在数据中表示。图18. 光谱方法与过滤流程相结合。为了结合这两个想法,我们提出了一种新模型持久光谱。该模型综合利用滤波流过程和谱映射方法,保留数据的原始形状,同时揭示其内在的拓扑特征。

埃德斯布伦纳、赫伯特和约翰·哈勒。 “持久同源性——一项调查。”当代数学453.26(2008): 257-82。持久同源性是拓扑数据分析(TDA)的核心模型。 Wang、Rui、Duc Duy Nguyen 和Guo-Wei Wei。 “持久光谱图。”国际生物医学工程数值方法杂志36.9 (2020): e3376。提出了持久谱图方法。

拉普拉斯矩阵我们仅对拉普拉斯矩阵的概念进行粗略的介绍。 k Veraplace矩阵L具有以下计算公式。图19. 拉普拉斯矩阵计算公式。例如, 0 Veraplace 矩阵L 以点为单位对象,对角线为点的度数。当点i和j连接时,L的(i,j)位置取-1,否则取0。同样,在复杂形状上,将边制成单元对象,得到1 Veraplace矩阵L从边之间的关系。图20.图L,L,L的拉普拉斯矩阵将得到特征值分解的拉普拉斯矩阵,其中零特征值的数量对应于Betti,反映了图的连通分量的数量。拉普拉斯矩阵的非零特征值也包含丰富的信息。例如,最小的非零特征值,也称为费德勒值,常用来表征图的连通性,显示简单复形各部分之间的连接关系。图21. 零特征值个数和贝蒂数3.4 里奇曲率另一个重要的不变量是几何不变量,比如里奇曲率。里奇曲率可以捕获图或网络中的群落结构或簇结构。例如,当图中存在紧密连接的社区或簇时,该区域的里奇曲率通常为较大的正值。对于连接两个不同社区或集群的桥梁部分,里奇曲率可能为负。因此,许多研究人员使用里奇曲率分配方法来描述网络中区域之间的互连性。图22 里奇曲率里奇曲率和其他曲率是用来描述整体结构、簇结构、群落结构和链接结构之间关系的重要工具,可以用来揭示网络或网络内部丰富而复杂的拓扑和几何特性。数据集。事实上,上述信息是可以相互关联的。例如,拓扑中的贝蒂数(同源信息)与霍奇拉普拉斯中的零特征值之间存在一一对应的关系。离散形式的里奇曲率(例如福尔曼里奇曲率)也可以通过与霍奇拉普拉斯算子(例如博赫纳-魏岑伯克公式)的某种组合来关联。图23. 几何不变量的关联使用这些工具从不同的角度描述数据的结构: • 里奇曲率帮助我们理解数据的几何特性; • 贝蒂数或更一般的同源信息揭示了数据的拓扑特性; • 谱方法可以捕获网络或数据集的全局属性。 3.5 简单复形的构造上面主要介绍了基于数学不变量的数据的几个特征(特征化),包括贝蒂数、曲率和谱信息。另一个更基本的问题是数据的表示。例如,图、简单复合体和超图用于表示数据。图24. 简单复形和超图考虑图或单纯复形的子结构,例如社区、集群或模块。这些子结构通常可以揭示数据中更精细的组织形式,从而帮助我们更准确地理解和预测系统的行为。另外,我们还可以考虑动态的视角,比如时间演化网络,这可以帮助我们理解系统的变化和发展模式。有很多方法可以构建简单的复合体。除了Clique复合体、VR复合体、Alpha复合体等常用方法外,下面将介绍三种方法。它们在拓扑学中有广泛的应用。此外,拓扑信息还可以用其他代数模型来表示。这里我们要介绍一个特殊的代数模型,Tor-algebra。

博德纳尔、克里斯蒂安. “拓扑深度学习: 个图、复合体、滑轮。”博士论文,剑桥大学,2022 年。拓扑深度学习。

3.5.1 邻域复合体最简单的构造方法是邻域复合体(Neighborhood Complex),它是根据给定图中的邻接关系来构造的。如下图所示,假设有一个点有三个相邻的点。我们将这四个点组成一个四边形(称为2-单纯形)。如果两个相邻点也彼此相邻,则将这两个点连接起来形成一条边(1-单纯形)。如果有三个点彼此相邻,则这三个点形成一个实心三角形(2-单纯形)。这样,图就转变为邻域复合体。图25. 社区综合体。该邻域复合体描述的拓扑信息与其他方法(例如Clique Complex)获得的结果显着不同。构建简单复合体的另一种有趣方法是Dowker 复合体。 3.5.2 Dowker Complex 在研究两个实体之间的相互作用时,例如两个分子之间的连接,我们可能更关心分子之间的全局相互作用,而不是每个分子内部的连接方式。这时候,二分图就是一个很好的工具。我们将小分子(例如蓝点和绿点)视为图节点,然后根据它们之间的相互作用添加边。图26. Dowker综合体在此基础上构建邻里综合体。由于蓝点的所有相邻点都位于绿点集合中,反之亦然,因此最终得到两个单纯复形,分别由蓝点和绿点组成。实体之间的相互作用是在道克复合体的帮助下探索的。 3.5.3 坎复合体

C. H. Dowker,“关系同调群”,《数学年鉴》,第84-95 页,1952 年。 L. Lovsz,“克内泽猜想、色数和同伦”,组合理论杂志,A 系列,卷。 25、不。 3,第319-324 页,1978 年。

使用“Hom Complex”方法可以构造更复杂的场景,适合研究两个图的交互。其核心是构建一种称为多面体复合体的结构,其中元素是多同态。例如,假设有两个图K和K,并且选择某种映射策略将K映射到K。这种映射只需要确保原始图中存在的边被映射到新图中对应的边。例如,K中的K点映射到K中的a点,x点映射到b点。但如果你试图将点K和x都映射到点a,就会出现问题,因为原图中的点x和x之间有一条边,但在新图中,点a无法形成自环。图27. Hom 复合体如上图所示。 x 的映射,所有这些映射eta 形成复数Hom(K, K)。当考虑更复杂的连接关系时,例如使用高阶或卷积核式关系进行映射,该方法可以帮助生成新的单纯复形,进一步反映该特定核下图的深层连接。图28. Hom 复数示例3.5.4 Tor 代数我们还可以将简单复数结构升级为更复杂的代数结构以供考虑。例如,给定一个单纯复形,定义一组多项式并建立这些多项式之间的特定关系(例如Stanley-Reisner理论)以获得一个理想的结构,然后研究这个理想的属性,例如它的Tor函子等等。这样,图的拓扑信息就转化为代数量,简单复形上升到代数层次,并在这个层次上进行研究。图29. Tor 代数

向,L.I.U.和克林夏。 “基于持续Tor 代数的堆叠集成学习(PTA-SEL),用于蛋白质-蛋白质结合亲和力预测。” ICLR 2022 几何和拓扑表示学习研讨会。 2022.持久托代数(PTA)为生物研究提供强大有效的新工具

上一部分,夏克林老师介绍了基于简单复杂的图神经网络,可以理解为图神经网络的扩展。在图神经网络中,核心思想是利用消息传递机制聚合节点周围邻居的信息并将其传递到目标节点,然后通过这个过程的迭代,学习到整个图结构。图30. 图神经网络在拓扑数据处理中,我们不再仅仅基于图进行操作,而是对更高维的简单复合体或其他复杂结构(例如Stellar 复合体)进行操作。例如,除了在点级别传输信息之外,我们还可以对边、面或更高维的单纯形执行类似的操作。图31. 简单复合体上的信息传输。在进行如此复杂的拓扑数据分析时,有两个非常核心的概念:边界运算和共边界运算。简单来说,边界操作是指找到给定单纯形的所有较低一维面。例如,从一条边(1-单纯形)开始,我们可以找到它的两个端点(0-单纯形)。共边界运算是逆运算,即从低维单纯形开始寻找更高维单纯形。图32. 边缘

界运算和邻接关系除此之外,还有两个重要关系:Lower Adjacency 和 Upper Adjacency。这两个关系都是描述图中的邻接关系,但方式各异。Lower Adjacency指的是当两条边有一个公共顶点时,我们称这两条边是邻接的。而Upper Adjacency则更为严格,只有当两条边共享一个高维单纯形(比如三角形)时,我们才认为它们是邻接的。通过考虑不同的连接方式,可以进一步描绘出数据中信息传递的不同路径,并通过将不同维度的信息耦合在一起,构建一个复杂的“拓扑神经网络”。图33. 拓扑神经网络这种结合了拓扑和深度学习的研究领域还相对较新,但已经被广大学者所关注,并有越来越多的研究工作开始尝试利用拓扑数据分析来提升深度学习模型的性能。 Hajij, Mustafa, Kyle Istvan, and Ghada Zamzmi. "Cell complex neural networks." arXiv preprint arXiv:2010.00743 (2020).拓扑神经网络 思考延伸在拓扑数据分析(TDA)中,我们用单纯复形来表述和理解复杂的数据结构。然而,其他专业领域的研究者可能对这样的描述方式感到困惑。在他们眼中,原子(点)和共价键(边)具有明确的物理含义,而单纯复形中的三角形看起来似乎没有直观的物理意义?实际上,在 TDA 中,三角形捕获了三个元素之间的相互关系。在化学领域,这可以用来表示由三个原子组成的二个共价键之间的角度信息(bond angle)。而且这个角度信息在分子动力学的模拟中有极其重要的作用。然而,如何更好地定义单纯复形,并用它来描述体系中的高阶相互作用仍然是TDA建模中的一个主要问题。另外一个 TDA 面临的挑战是如何将抽象的数学不变量与实际问题紧密联系起来。为了解决这个问题,我们需要理解这些拓扑特征所代表的实际意义。例如数据中的环状结构是否反映出它的物理、化学、生物,或其他实际信息。尽管 TDA 与传统图的方法在概念上有所不同,但其在刻画复杂的高阶相互作用的问题中展示出了极大的优越性,尤其是它可以刻画体系的最本质的拓扑信息。在实际应用中,我们需要构造合适的单纯复形来描述高阶信息,并且找出拓扑不变量的合适的实际意义,这样才能发挥 TDA 模型真正作用,并使模型的解释性和性能得到提升。这就需要我们深入理解问题背景,将数学工具与实际问题紧密结合,并寻找到一个合适的应用场景来展示这种方法的优点。只有这样,TDA 才能表现其价值,并吸引更多人尝试使用这种新方法。更进一步,除了拓扑数据分析,对于其他数学不变量,包括几何不变量、代数不变量、组合不变量等,也可以用于数据的表征和特征提取,这些模型将进一步促进我们对数据的本质信息的挖掘和刻画。为提高机器学习模型的精度、可解释性、迁移性等打下坚实的数学基础。图34. 分子数据,数学表征,数据特性与深度学习 转载内容仅代表作者观点不代表中科院物理所立场如需转载请联系原公众号 来源:集智俱乐部编辑:停云

猜你喜欢