多视图聚类研究进展与展望

2022-12-01梁吉业刘晓琳

山西大学学报（自然科学版） 2022年3期

梁吉业，刘晓琳

（1.山西大学智能信息处理研究所，山西太原 030006；2.山西大学计算智能与中文信息处理教育部重点实验室，山西太原 030006）

0 引言

随着计算机技术的迅猛发展，人们获取与采集数据的能力大大提高，信息量也以前所未有的速度增长。数据往往呈现出规模大、实时性强、维度高和结构复杂的特点，为其标记类别信息不仅代价高昂，还需要耗费大量的人力物力。作为处理大规模无标记数据的一种重要技术手段，聚类分析为这些数据的特征提取与潜在结构发现提供了强有力的帮助。同时，聚类分析作为数据预处理策略也被广泛地应用于信息粒化、数据采样和数据压缩等其他数据分析领域，从而提升这些数据分析技术的效率和性能［1-3］。2017年国务院印发的《新一代人工智能发展规划》，将以聚类为主的无监督学习列入“建立新一代人工智能基础理论体系”的第一个重点任务中，这足以体现聚类的重要性。发展至今，研究者已从理论探索、方法创新、应用推广等方面对聚类分析进行了深入研究，并取得了显著成果。针对数据类型、分布假设、应用场景等不同，已经提出了大量聚类算法，可粗略归类为：划分聚类、密度聚类、层次聚类、谱聚类等［4-7］。

随着信息技术的发展，数据的采集方式趋于多样，数据可以通过不同的特征采集器提取得到，我们称这种不同来源或多个模态的数据为多视图数据［8］。如何从多视图数据中挖掘有价值的、潜在的、复杂的结构关联，赋予计算机理解多源异构海量数据的能力，已成为多视图数据挖掘领域迫切需要解决的关键问题。由于多视图数据特征间的差异性及其相互关系的复杂性，传统的聚类算法并不能准确刻画和提取这些不同视图数据的空间分布特性以及其内在关系。多视图聚类作为一种新的机器学习范式，给定一组标签未知的多视图数据对象，通过对多个视图进行模型构建并学习共识函数，目的是挖掘多个视图之间的潜在关联，将数据对象划分到相应的类簇。多视图聚类期望打破传统聚类产生的“数据孤岛”现象，进而形成多个视图的“数据群峰”效应，拓展对数据认识的深度和广度，从而构建出相比于传统单视图聚类性能更优越、结果更准确的模型和算法。

作为一个新兴的研究领域，近年来多视图聚类受到了学术界和工业界的广泛关注。国际机器学习大会（International Conference on Ma⁃chine Learning，ICML）在2005年召开了首次多视图主题研讨会，极大地推动了多视图学习的浪潮。自2010年起，知识发现与数据挖掘国际会议（ International Conference on Knowledge Dis⁃covery and Data Mining，KDD）曾连续多年举办专题为“MultiClust”的研讨会，给多视图聚类的发展带来了深远的影响。在多语言环境下的自然语言处理、基于用户属性和社交关系的异构社交网络、基于多个基因和蛋白质库的生物信息学以及基于多智能体智能决策等实际应用领域中，研究者都对多视图聚类进行了相关的前沿探索［9］，其理论与应用研究现正处于集中爆发期。因此，开展多视图聚类算法的分析与探讨，对于推动大数据环境下的智能信息处理具有重要的理论意义和应用价值。

1 多视图聚类算法研究进展

多视图聚类的关键问题在于如何有效地利用多个视图中的信息，充分发挥每个视图各自的优势，规避各自的局限，从而获得准确且稳健的聚类性能。一致性原则和互补性原则是多视图学习中的两个重要理论依据，其中，一致性原则旨在最大化多个视图之间的一致性，如多个视图应具有相同的类别结构；互补性原则是指多视图数据的每一个视图都可能包含其他视图所不具备的信息或知识，使用多个视图可以获得更加全面而准确的数据描述。近年来，在多视图学习有效性理论的基础上，多视图聚类取得了快速的发展，从方法原理的角度，可以将多视图聚类广义的划分为：基于协同学习、基于图学习、基于子空间学习、基于集成学习、基于多核学习和基于深度学习的多视图聚类方法。

1.1 基于协同学习的算法

基于协同学习的多视图聚类算法旨在利用每个视图的先验信息或学习得到的知识去引导其他视图上的聚类进程，在执行多次迭代策略后，使得所有视图上的聚类结果趋于一致，共识信息达到最大化。Bickel等［10］于2004年首次将多视图的概念应用到聚类过程，作者将期望最大化算法扩展到两个视图，提出了一个适用于文本数据的协同式最大期望多视图聚类算法。在此基础上，Jiang等［11］在概率潜在语义模型中引入协同正则化的思想，使同一对象在不同视图下的语义主题空间保持最大的一致性。随后，Kumar等［12］提出了一种基于协同训练的谱聚类算法，该算法交互式地利用一个视图的拉普拉斯特征向量去更新另一个视图的拉普拉斯矩阵，通过交叉迭代的更新过程使得两个视图获得一致的低维表示。此外，Kumar等［13］在协同正则化谱聚类算法中引入聚类指示矩阵的差异性约束，在约束多个视图彼此协作的同时获得一致的聚类指示矩阵。Cleuziou等［14］提出了基于协同的多核模糊聚类算法，将局部的核构造和全局模糊聚类形成一个统一的学习框架，通过协同学习策略，实现了从局部到全局的交互式信息传递。Zhang等［15］提出了基于代表点一致性约束的多视图模糊聚类算法，该算法综合考虑了视图内的划分质量以及视图间代表点的一致性，并利用代表点一致性约束进行多视图间全协同学习。

基于协同学习的聚类方法可以促进不同视图间互相学习、互相改进，然而算法的有效性依赖于视图的充分性、兼容性和条件独立性3个条件，这在一定程度上限制了其在复杂多视图数据上的应用。

1.2 基于图学习的算法

基于图学习的多视图聚类方法旨在寻找一个由所有视图共享，且能够刻画所有视图相互关系的融合图，然后在融合图上使用图切割算法或其他谱图技术，获取最终聚类结果。该类算法主要分为三个关键步骤［16］：（1）基于单视图分别构造初始图；（2）学习融合全部视图拓扑结构的一致图；（3）将聚类问题转化成图分割问题。其中，如何构造高质量的初始图和如何设计有效的图融合策略是这类方法的关键。

在初始图构造方面，Hou等［17］提出了基于自适应图学习的多视图聚类方法，该算法以自步学习的方式学习动态变化图，而不是对固定的输入图进行处理。为了提高图学习的性能，Zhan等［18］从不同视图的数据中学习初始图，并在拉普拉斯矩阵的秩约束下对初始图进行优化。受流形学习的启发，Li等［19］提出了自适应一致性传播的图聚类方法，该算法通过从近到远传播数据点之间的拓扑连接，充分利用输入数据的流形结构去学习初始图结构。在图构造的效率方面，Li等［20］提出基于二部图的多视图聚类算法，该算法用二部图来计算样本间的相似性矩阵，大大提高了计算效率，对处理大规模数据也更为有效。

围绕图的融合策略方面，众多学者也开展了一系列研究。Xia等［21］提出一种多视图谱嵌入的算法，该算法将多个视图嵌入在一个拓扑图中，使得多个视图包含的信息可以通过嵌入的拓扑图进行共享和补充。Ren等［22］提出了自适应加权的多视图融合方法，该方法在引入多视图类别作为先验信息的基础上，通过最小化不同视图间的差异来求得具有最优聚类结构的一致性仿射图。此外，Nie等［23］也提出一种多图融合的方法，该算法可以自动学习每个图的最优权值，而不引入其他参数。Wang等［24］在图融合的过程中强调了多视图的一致性和互补性，所提算法可迭代获得多个视图共享的一致图和多个视图特有的分歧图。

由于图结构具有可解释性强的特点，该类方法在聚类结果的解释方面具有一定优势。然而，基于图模型的多视图聚类算法的性能大多依赖于图的初始化，而初始图的质量通常难以得到保障。

1.3 基于子空间学习的算法

基于子空间学习的方法假设所有的数据对象共享一个公共的子空间，每个视图的样本在该空间中都有对应的投影或表示。多视图子空间学习的核心思想在于尽可能保留每个视图特有分布信息的情况下，寻找多个视图共享的表示空间。子空间学习方法有典型相关分析、矩阵分解、自表示、主题模型和字典学习等，本文主要介绍基于典型相关分析、矩阵分解和基于自表示的多视图子空间聚类方法。

1.3.1 基于典型相关分析的方法

不同视图中必然存在某些相关关系，因此，挖掘视图间的相关关系成为多视图特征学习过程中的首要任务。基于典型相关分析（CCA）的多视图聚类算法以最大化视图间相关性作为学习目标去寻找数据的潜在公共子空间。Chaudhuri等［25］于 2009 年利用典型相关分析将原始数据从高维空间（dv维，即原始视图维度）向低维空间（d维，d<

1.3.2 基于矩阵分解的方法

矩阵分解的核心思想是将原始数据分解为两个低维矩阵：系数矩阵和基矩阵，其中，系数矩阵可以看作聚类的指示矩阵，实现了数据从高维（dv维）向低维（c维，即类别个数）的映射表示。Xu等［28］首次将非负矩阵分解（NMF）应用到多视图学习中，旨在从多视图数据中获得一个统一的低维指示矩阵。自此之后，众多学者围绕潜在表示的学习过程和优化目标的构建方面对多视图矩阵分解的有效性和结构性开展了一系列相关研究。

针对矩阵分解潜在表示的有效性学习方面，Liu等［29］人提出了一种联合非负矩阵分解的多视图共有低维表征矩阵学习方法，该方法从各视图的子空间中间接地学习多视图的共有表征矩阵，这种策略不仅能够减少矩阵分解上的误差，而且提高了视图间共有矩阵学习的灵活性。Zhang等［30］提出的二值多视图聚类算法将哈希编码的思想引入到多视图子空间学习，联合地将多视图数据投影到一个共有的二值编码空间，并从该二值编码中利用二值矩阵分解技术得到最终的聚类结果，该方法在计算和内存占用方面都有显著的降低。基于K-means和NMF 的等价性，Cai等［31］提出了基于 K-means的多视图聚类算法，该算法假设每个视图共享相同的潜在簇结构，同时引入权重参数计算视图的重要性，其目标函数采用具有稀疏性质的l2，1范数，强制每个视图分解后的结果趋于一致且满足稀疏结构。

在矩阵分解优化目标的构建方面，部分研究工作的重点在于引入多种有意义的正则项，以保持多视图数据的结构特性。Zhang等［32］提出了一种具有样本空间结构约束的非负矩阵分解方法，该算法利用流形正则构造平滑惩罚因子，能够在子空间充分保持多视图数据的几何结构。Zong等［33］提出了一种多流形正则非负矩阵分解框架，该框架将一致系数矩阵和一致流形与多流形正则化结合，以保持多视图数据空间的局部几何结构。Zhu等［34］提出了一种多流形正则化稀疏编码算法，该算法能够利用高阶流形一致正则去更好地捕捉数据的潜在聚类结构。

尽管基于矩阵分解的方法可以挖掘到多视图数据中隐含的聚类结构，具有一定的稳定性和鲁棒性，但是产生的低维潜在表示存在难以解释的问题，这也限制了该类方法在实际中的应用。

1.3.3 基于自表示的方法

基于自表示子空间方法的核心思想是通过数据之间的互相表达来重建数据自身，并基于重建系数构造样本间的相似性，从而挖掘样本之间的关系，实现数据从视图维度（dv维）向样本维度（n维）的映射表示。从子空间的特性方面考虑，可以将现有的工作划分为：多个视图共享一致的子空间、多个视图编码不同的子空间以及一致性和多样性联合嵌入的子空间。

多个视图共享一致的子空间：Yan等［35］提出了一种鲁棒多视图子空间聚类框架，该框架通过扩展联合特征选择和自表示模型来学习与理想子空间结构一致的相似性矩阵。Zhang等［36］提出了基于柔性多视图表示学习的子空间聚类算法，得到的一致子空间可以灵活编码不同视图的结构信息，并探索视图之间的非线性、高阶关联关系，从而使潜在表示更接近于不同的视图，更适合于子空间聚类。Zhang等［37］提出一种潜在多视图子空间聚类算法，算法假设多个视图源于同一子空间，该子空间可以比单个视图更深刻地描述数据本身，从而使子空间表示更准确和鲁棒。

多个视图编码不同的子空间：Cao等［38］提出基于多样性诱导的多视图子空间聚类，算法将希尔伯特-施密特独立标准作为差异性约束，计算不同视图的互补性，减少多视图数据的冗余，提高聚类结果的准确性。Liu等［39］提出一种基于多样性正则化和秩约束的多视图子空间聚类算法，该算法利用多样性正则化方法来学习每个视图的最优权值，从而抑制冗余，增强不同特征视图之间的多样性。以上成果表明有多样性的子空间聚类研究已初见端倪，但对视图间多样性刻画方面的研究不充分，亟需更多的视图多样性分析技术。

一致性和多样性联合嵌入的子空间：Mi等［40］提出的子空间学习方法利用自表示特性，寻求所有视图之间的共享一致表示和每个视图的不同表示，以更好地学习潜在嵌入空间中的相似性矩阵。Zhang等［41］提出了一种联合利用多视图一致性和多样性进行子空间表示学习方法，该方法使用一个共享的一致表示和一组多样性表示来约束多视图自表示属性以挖掘数据的子空间结构，其中，一致性为所有视图中的公共属性建模，而多样性捕获每个视图中的内在差异。

基于自表示的子空间学习方法能够在实现数据降维的同时保留数据的流形结构，但是该类方法往往涉及较多参数且计算复杂度较高，因此难以适应计算资源受限的环境。

1.4 基于集成学习的算法

集成学习的核心思想在于充分发挥每个个体学习器的优势，形成弱弱生强的学习模式，以提高算法的学习能力。基于这一思想，Liu等［42］提出了一种多视图集成聚类框架，以集成的方式来解决多视图聚类问题。算法为每个视图分别生成基聚类器，并在所有基聚类器之间寻求一致的划分。聚类集成算法设计的关键由两部分构成，一是提高基聚类器的准确性和多样性，二是优化集成策略。

在提高基聚类器的准确性和多样性方面，Xie等［43］提出了一种多视图聚类集成算法，该算法将多视图谱聚类或多核K-means算法作为基聚类器，得到多个准确性高、差异性强的基聚类结果，然后利用mico-p算法对基聚类进行集成。Wahid A等［44］在多视图集成时引入了交叉、变异、调整、进化的概念，增强了多视图聚类集成的多样性和鲁棒性。

在优化集成策略方面，Cheng等［45］提出了多视图下的聚类集成算法，该方法首先对每个视图使用谱聚类算法得到基聚类结果，然后计算新的相似度矩阵，再使用谱聚类得到最终的数据划分。Liang等［46］提出了一种多视图混合数据集成聚类算法，该算法首先利用K-proto⁃type聚类算法在每个视图上分别生成一组基聚类器；然后，在考虑所有基聚类的基础上构造类-类相似矩阵；接着，采用METIS算法对相似性矩阵进行元聚类；最后，在元聚类的基础上，应用多数投票将对象分配到相应的聚类中，得到最终的聚类结果。Xia等［47］提出一种基于邻域多核学习的后融合多视图聚类算法，该算法在邻域多核学习的基础上，利用谱旋转的方法对多个视图的类别指示矩阵进行融合。

基于集成学习的多视图聚类算法通常具有很强的可扩展性，但是基聚类器的质量往往是良莠不齐的，最终的聚类的准确性因为质量差的基聚类器而大大降低。

1.5 基于多核学习的算法

核函数是实现映射关系内积的一种方法，将低维特征空间映射到高维空间，使得低维特征空间线性不可分的数据在高维空间可能实现线性可分。多视图数据由于每个视图都有其特有的分布信息，单个核函数构成的核运算并不能满足多视图数据的实际分析需求。多核学习需要对不同的视图构造不同的基核，并通过线性、非线性等方式找出视图间的结构关联，有效融合多视图信息得到一致性核，最终达到提高聚类性能的目的。多核学习存在两个关键问题：一是如何选择合适的核函数；二是如何有效地组合多个核函数。

在核函数的选择方面，Zhao等［48］提出局部自适应的多核聚类算法，用自适应的核去代替传统的核。Yang等［49］提出了一种基于变权多核学习的多视图聚类算法，该算法采用了改进的加权高斯核函数，而不是传统的组合核函数，从而对数据进行了更精细的分析，提高了聚类质量。

在组合优化核函数方面，Manna等［50］提出了一种自加权多核学习框架，该框架自动为每个视图的核函数分配适当的权重，而不引入额外的参数。由于现实数据中的噪声或异常值可能会影响多核学习的性能，Manna等［50］还提出了一种鲁棒自加权多视图多核学习框架，该框架使用l2，1范数来减少数据集中异常值的影响。考虑到从不同视角中构建的核矩阵存在冗余性，容易导致视图信息不平衡，Liu等［51］提出基于诱导矩阵正则项的多核K-means算法来增强不同核之间的差异性，提高不同视图信息的利用率。针对多视图细粒度融合问题，Liu等［52］提出了基于簇加权的多视图核K-means聚类算法，该算法为各个视图内的每个簇分配了一个权重，并通过比较不同视图间对应簇的簇内相似度来更新权重，使得拥有较高簇内相似度的簇拥有较高的权重值。

基于多核的多视图聚类算法通过将样本映射到可再生希尔伯特空间实现了数据的非线性映射，核方法通过利用优化组合算法进一步提高聚类性能，但存在时间复杂度高，内存消耗大，可扩展性差等问题。

1.6 基于深度学习的算法

深度学习算法具有很强的非线性拟合能力，能够使用深度结构从大规模数据中进行深层特征学习，还能表达更加复杂的目标函数，进而提升聚类和分类等学习任务的性能。根据获取特征表示的方式，可以将该类算法划分为两类：（1）基于共享特征表示学习的聚类算法；（2）基于联合特征表示学习的聚类算法。

基于共享特征表示学习的聚类算法主要以自编码器为模型框架，在训练的过程中，希望多个视图学习一个低维的共享中间层特征，并基于共享特征构建相应的聚类损失，帮助模型发现数据内在的类簇结构。该类方法的损失函数一般由数据的重构损失、聚类损失和网络辅助损失三部分构成，即希望表示学习和聚类任务协同指导模型的训练过程。基于以上思路，Du等［53］提出了一种基于多编码器的深度多视图聚类算法，该算法结合各视图的局部不变量和任意两个视图之间的一致互补信息，采用自动编码器分层捕获各视图的非线性结构信息，算法将表示学习和聚类集成到一个统一的框架中，从而共同优化两个任务。Cheng等［54］提出了一种多视图属性图卷积网络模型用于聚类任务，模型设计有双路径编码器，第一条路径是多视图属性图注意力网络，以减少噪声和冗余，并学习多视图数据的图嵌入特征；第二条路径是一致性嵌入编码器，用于捕捉不同视图之间的几何关系和概率分布的一致性，自适应地为多视图属性找到一致的聚类嵌入空间。Shi等［55］提出了一种任务引导的图自动编码聚类框架，该框架中的图自编码器能够通过使用一个信息丰富的图和属性数据来重建多个图并学习节点嵌入，因此，算法可以很好地捕捉多个图的共享特征表示。在此基础上，模型还提出了一种自训练聚类目标，以迭代的方式改善聚类结果。

基于联合特征表示学习的聚类算法一般以深度前馈神经网络（全连接或卷积）为模型框架，该类方法通常会联合多个视图在网络的输出层构建聚类损失，形成一种端到端的聚类模式。相较于共享特征表示学习的聚类算法，该类算法对聚类损失的鲁棒性要求更高，其关键在于如何产生可靠的确定性信息来辅助模型训练。一般的做法是将传统聚类算法的损失函数迁移到神经网络结构中，形成联合的深度聚类过程，并通过交替优化或联合优化的方式实现聚类。基于以上思路，Zhao等［56］提出了一种面向多视图聚类的深度矩阵分解框架，该算法采用半非负矩阵分解，以分层的方式学习多视图数据的层次语义。为了最大化每个视图的互信息，算法在最后一层强制每个视图的非负表示是相同的。此外，为了保留每个视图数据中固有的几何结构，算法引入了图正则化项来耦合深层结构的输出表示。Peng等［57］提出了一种多视图谱聚类网络，算法将每个视图的局部不变性和不同视图之间的一致性融合到一个新的目标函数中，其中局部不变性由深度度量学习网络定义，而并非传统方法采用的欧氏距离。Zhang等［58］提出了一种基于神经网络的广义潜在多视图子空间聚类方法，与现有的单视图子空间聚类方法直接利用原始特征重构数据点不同，该算法从多个视图中利用深度神经网络挖掘潜在的互补信息并同时寻找联合的潜在表示，实现了深度神经网络与子空间学习的有效联合训练。

上述基于深度的多视图聚类算法虽然在高维和大规模数据集上表现出比传统聚类更好的处理能力，但是算法依赖于聚类网络的初始化和预训练。因此，如何设计更高效可用的深度聚类算法，以及如何提升大规模多视图数据的聚类效果，将是未来深度多视图聚类研究的重点。

2 多视图聚类算法展望

经过多年的发展，多视图聚类算法已经在理论、方法和应用等方面取得了阶段性成果。但多视图聚类算法作为机器学习研究的前沿方向之一，仍然存在很多开放性的问题有待进一步探索。具体可以概括为以下四个方面：

（1）多视图数据的低质性问题：传统的多视图聚类算法通常要求数据是高质量的。由于实际中存在诸多风险因素，收集到的多视图数据的数据质量通常较差，数据中可能包含了孤立点、缺失或错误的数据。例如，在同一场景下的多个视频监控中，某些摄像头可能由于设备故障等原因无法正常工作，从而采集不到某个角度的视频画面，造成该故障设备视图下的样本缺失；在医疗诊断过程中，某些患者由于高昂的检查费用或自身的一些原因只参加两种测试中的一种，从而造成检查结果视图下的患者样本部分非对齐的情况；战场环境中不同传感器收集的数据可以视为多视图数据，但是由于通信的干扰，某些传感器收集到的数据可能具有噪声。这些低质量的多视图数据，会降低传统的多视图聚类算法的性能。研究如何充分合理地利用这些低质量多视图数据的信息，进行正确地聚类，使得多视图聚类算法在现实应用中具有更高的稳定性，是多视图聚类中最具挑战性的问题之一。

（2）多视图数据的规模性：在信息时代，每天都会产生海量的数据，并且在许多的研究领域都涉及多视图数据。例如，在抖音数据平台上每分钟都会产生大量的视频数据，这些视频数据可以用图像、声音和文本来进行表示；在气象监测领域，每天都会从不同的采集器上接收到大量的数据，这种不同来源的数据也是多视图数据。由于大量的复杂性计算和巨大的存储成本，现有的多视图学习方法无法有效地对大规模数据集进行聚类。因此，如何在保证聚类准确性的前提下高效地对大规模数据集进行聚类对多视图聚类算法显得尤为重要。

（3）多视图数据的动态性问题：实际应用中存在大量具有时序关系的多视图数据，如多个摄像头连续拍摄的监控视频，每个摄像头可以看作是一个特征采集器，所拍摄的画面构成多个具有时间信息的多视图数据；在医学诊断过程中，医生需要对病人的病程进行一系列的检查和治疗，每一项检查结果下的病历数据构成了动态变化的多视图数据。因此，在线环境下，随着时间的推移，每个视图的数据特征和分布都有可能发生变化。现有的多视图聚类算法仅能适用于离线的静态环境数据，无法随着数据的变化实时更新模型。对于具有时序关系的多视图数据，研究在线的多视图聚类方法也是多视图研究领域的一个挑战性问题。

（4）多视图聚类的多解性问题：现有的多视图聚类算法假设多个视图拥有一致且唯一的聚类结果。然而这样的假设未免过于苛刻。在现实世界中，数据往往可能有不同的分组方式，关注数据的不同表示可以得到不同的聚类结果。例如，抖音平台的用户数据，可以按照属性特征对用户进行分组，也可以按照社交好友关系对用户进行分组。多划分聚类建模的目的是寻找数据多个有意义的粒度空间，挖掘隐含的多种有意义的聚类划分。多视图数据的多源异质性可以为不同粒空间的聚类结果提供丰富的、多角度语义解释，进一步多粒度、可解释的多划分聚类建模将给决策者提供更多的选择空间，并且可以使决策者根据自身需求探索性地相信和选用聚类划分。多划分聚类方式是对单维聚类的扩展，为复杂数据提供了一种新的探索分析方式，希望基于多解的多视图聚类算法在未来引起更多学者的关注。

综上可知，多视图数据的低质性、大规模性、动态性与多解性给聚类任务带来的挑战是多方面的、多层次的。为此，需要在现有研究成果的基础上，以全新的视角发展新理论与新方法，推动多视图聚类的发展与应用。

3 结论及展望

开展多视图聚类算法的研究，赋予计算机理解多源异构数据的能力，对于大数据环境下的机器学习具有重要理论意义与应用价值。本文系统梳理了多视图聚类算法的多种模型与方法，并对各类算法优劣进行了归纳和总结，最后从多视图数据的低质性、大规模性、动态性以及聚类结果的多解性等方面探讨了当前研究的挑战与未来重点研究方向，以期为多视图领域的研究提供必要借鉴。