艺术图像知识图谱构建初探*

2022-02-07钟远薪夏翠娟

图书馆论坛 2022年2期

钟远薪，夏翠娟

0 引言

美学家阿莱斯·艾尔雅维茨(Ales Erjavec)在经典著作《图像时代》开篇即说：“我从不阅读，只是看看图画而已。”[1]人类文化一直是伴随着图像的演化而发展的，在思维发展史上，图像式思维早于抽象性思维[2]。海德格尔说，现代社会不仅是一个“技术的时代”，更是一个“图像的时代”[3]。我们正经历着深刻的文化转型，即由传统的以语言为中心的印刷文化向当代的以形象为中心的视觉文化转型[4]，也就是所谓的“图像转向”。信息技术革命使图像成为大众传播、艺术文化和社会发展的核心要素之一。

毋庸置疑，和语言、文本一样，艺术图像同样是重要的文化遗产和文化符号，它以一种更为直接的方式记录和塑造着人类文明。对艺术图像的研究和解读，构成了艺术学、宗教学、人类学、历史学甚至文学的重要组成部分。今天的艺术研究与传播已经由“读图”转向“读屏”、由“单件”变为“集合”、由“感观”融合“数据”，深刻地改变艺术阐释，也“勾勒出当代艺术的形状，并最终为公众体认当代艺术提供有效途径”[5]。那么，对美术馆、图书馆、档案馆、博物馆(Galleries，Libraries，Archives and Museums，GLAM)而言，将馆藏艺术图像进行数字化并充分地标引，建成开放的图像数据库，就是时代赋予的使命。因此，开展艺术图像建库研究，探讨其数据规范、技术方法和服务方式，从而为相关实践提供参考，显得尤为重要，并且随着数字人文的勃兴与人文学科的融合发展，“知识大融通”不仅是一种梦想，而是一种亟待解决的需求[6]。

1 相关回顾

1.1 艺术图像

图像是通过摄影或绘画形成的二维形象[7]，是人类最常用的信息载体之一。艺术图像是一种美的创作，视觉化地记录了人类文明进程，它的生产与消费始终是人类社会生活中最基本的传播活动，是凝聚社会的一股无形力量[8]。作为一种文化传播与交流的工具，艺术图像可以直观、真实地记录特定历史时期和社会空间的人类实践活动和精神追求，起到了文化传承和文明象征的作用。

艺术图像具有重要价值。一是审美价值。艺术是对美的追求，艺术图像的创作体现了人们对美的认识，其美学价值多元，不仅在艺术门类交叉与互融的学术研究中发挥积极作用，更在艺术学理论建设中具有重要地位[9]。二是文化价值。潘诺夫斯基(Erwin Panofsky)认为一件艺术作品展示的是一个国家、一个时期、一个阶级、一种宗教信仰或哲学信念的基本态度[10]。艺术图像反映了不同文化的宇宙观、生命观和价值观，却又突破了不同语言的藩篱，使文化得以交流。三是史料价值。“置图于右，置书于左，索象于图，索理于书。”[11]中国一直以来有着图文互文的传统；而在文艺复兴中，美术的复兴贯穿始终。通过对艺术图像的断代、内容分析、风格判断和技法鉴赏，可以发现历史的留存。

1.2 艺术图像建库

数字时代为艺术图像的保存和利用提供了新的工具和环境。早在1986年，加州大学伯克利分校就开始建设一套图像数据库，实现艺术品馆藏的处理、检索和浏览[12]。之后，艺术图像数据库不断涌现，极大地丰富了人们获取艺术图像资料的来源，使研究者可以从文献记载和亲身所见的局限中脱离出来，通过数据库得到更为丰富、系统的视觉把握，促进了艺术学等学科的发展与突破，也使普通民众得以感受优秀艺术作品的魅力，促进了文化遗产的大众传播。

在研究领域，艺术图像建库主要涉及图像数字化、元数据规范、图像标注、语义组织与案例研究等方面。1987年，阿斯姆斯(Asmus，J.F.)等介绍《蒙娜丽莎》的数字化处理工作[13]，成为艺术图像数字化研究的开端。元数据规范作为核心内容，产生了CIDOC概念参考模型(CIDOC CRM)、视觉资源协会核心类目(VRA Core)、艺术作品描述类目(CDWA)、艺术品与文化遗产数据传输项目(REACH)、欧盟博物馆藏品元数据集(AMS)、美术图像数字化元数据标准等主要成果[14-19]。图像标注方面，约翰·P·艾金斯(John P Eakins)首次提出三层模型[20]，形成图像语义标注的基本标准；徐雷等以九色鹿本生故事画为例提出叙事型图像的语义标注模型[21]；陈涛等基于IIIF框架探索图像、对象和语义的三层标注方法[22]。语义组织方面，涵盖本体设计、关联数据应用等内容，如梁艳琪构建绘画类文物的分类本体并进行了语义融合研究[23]、李剑等探讨美术品关联数据的聚合[24]。在理论研究基础上，默多克(Murdoch，J.W.)等介绍阿伯丁艺术画廊影像数据库的建设和维护过程[25]，吴健等分享敦煌艺术图像数据库建设的技术架构、规范标准等信息[26]，童茵等剖析上海博物馆董其昌数字人文项目[27]。

在实践领域，影响最大的是谷歌艺术与文化(Google Arts&Culture，原Google Art Project)，2011年由Google联合欧美17家博物馆共建，旨在保护和传播世界艺术与文化[28]。该项目已为纽约现代艺术博物馆、大英博物馆、故宫博物院等全球超过2，000家文化机构托管1.3万多位艺术家的600万张高清艺术图像并免费开放。最有代表意义的是盖蒂研究门户(Getty Research Protal)[29]，共有来自盖蒂研究所和保罗·盖蒂博物馆的图像、手稿等记录24万余条，其中可自由下载和使用的图片超过10万张，还提供叙词表、书目索引、艺术史文本等一系列研究内容和IIIF、Arches等开源软件，项目伴生的艺术作品描述类目(CDWA)是利用最广泛的艺术元数据框架。在国内，具有世界影响力的首属“数字敦煌”，该项目1990年代开始实施，向全球免费共享30个洞窟的高精度数字图像和全景漫游节目[30]。此外，许多高校开展艺术图像建库工作[31-33]。值得一提的是，不少企业利用购买和免费获取的艺术图片开发一系列商业数据库，成为艺术图像建库中的一股重要力量。

纵观研究与实践，艺术图像建库紧随时代发展潮流，在理论探讨、技术研究、数据处理和实践应用等方面均取得了进步，满足了学术发展和文化消费的基本需求。从国内外对比看，国内处于追随阶段，尤其在资源开放利用方面裹足不前、差距明显。开放理念的缺失和新技术应用能力的不足，导致国内艺术图像建库低水平建设、重复建设和利用率低等问题。

2 艺术图像知识图谱

2.1 知识图谱技术及其应用

2.1.1 知识图谱及其关键技术为提高搜索质量和用户体验，2012年Google提出知识图谱概念，基于知识库对关键词进行概念和属性关系的分析，试图更好地理解用户搜索意图，以帮助用户找到正确的东西(Thing)，并提供与结果有知识联系的内容。与信息计量学领域“科学知识图谱”(Mapping Knowledge Domains)不同，知识图谱是一种大规模语义网络，包含实体、概念及其之间的各种语义关系[34]，它既是一套人工智能技术体系，也是一种知识组织和表达的模式，同时还是一类大规模的开放知识库。

知识图谱的关键技术基础之一是语义网技术的发展。2001年蒂姆·伯纳斯-李(Tim Berners-Lee)等介绍RDF知识表示方法、本体论、智能代理等关键内容[35]，奠定了语义网的基础。随后W3C发布RDF、OWL、SPARQL等一系列标准来推动语义网落地。2006年关联数据(Linked Data)被提出以简化语义网的实现路径[36]，得到广泛应用并深刻地改变了互联网。知识图谱的另一关键技术基础是大规模知识库的建立。DBpedia、YAGO、Freebase等大型通用知识图谱主要源自维基百科；中文通用百科知识图谱(CN-DBpedia)和中文通用概念知识图谱(CNProbase)主要从中文百科网站提取信息；ConceptNet、GeoNames、BabelNet、百度知心、搜狗知立方等均以不同知识库为基础。

知识图谱技术可分为知识获取与处理、知识建模与存储、知识计算与应用等3个体系(见图1)。知识图谱一般从各种结构化、半结构化和非结构化数据中抽取出实体、属性、关系等知识要素，然后进行实体对齐、知识聚类、知识补全等处理。知识建模与存储主要包括知识本体构建、RDF图模型和属性图模型、图数据存储等内容。知识计算与应用则包括知识查询与推荐、知识推理与问答、知识挖掘与可视化等相关技术与应用。

图1 知识图谱体系框架图

知识图谱有自顶向下(top-down)和自底向上(bottom-up)两种构建方式。自顶向下是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。自底向上是从一些开放关联数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式[37]。知识图谱的体系框架图很好地展示了其构建的基本过程。

2.1.2 GLAM领域应用

知识图谱的价值在于大规模、富有语义且可复用，天然契合GLAM的价值取向，因此很快被应用于实践，形成了许多成果。在国外，萨德菲(SadeghiAfshin)等整合DPLP、Microsoft Academic Graph等多源数据以构建学术交流领域知识图谱进行学者分析与评价[38]；奥德曼(Oldman Dominic)等通过建立知识图谱为大英博物馆研究社区的研究者提供更好的知识库支持[39]；卡里略(Carriero Valentina Anita)利用包含82万个文化实体共1.69亿个三元组的知识图谱ArCo论证其在文化遗产保护工作中的重要性和影响力[40]。在国内，杨海慈等借助知识图谱对宋代学术传承和宋代政治网络进行可视化展示[41]；刘芳等从知识抽取、知识融合、知识存储和知识应用4个方面设计国家博物馆藏品知识图谱，研究关键技术问题[42]；胡吉颖等基于中国科学院文献情报中心海量数据构建科技大数据学术图谱，实现了10类科研实体的智能语义搜索和多维知识的集成发现[43]。

GLAM大规模、规范和结构化的馆藏记录是知识图谱高质量知识数据的主要来源。知识图谱在GLAM的应用以构建和发布知识库为主，更关注本体设计、知识存储和知识消费等基础环节和利用场景，较少涉及知识抽取、知识融合及知识推理等技术内容，呈现出明显的领域特色，也昭示了GLAM在知识图谱生态体系中不可或缺的重要地位。推动知识图谱技术在GLAM的应用，不仅能促进馆藏资源的充分揭示、提升资源服务水平，也能推动知识图谱与人工智能的发展。

2.2 艺术图像知识图谱构建可行性分析

从技术条件看，知识图谱发展渐趋成熟，虽然在知识融合、知识加工和知识表达等环节还有一些关键问题有待突破，但其构建的整个生命周期都有丰富的开源工具，足以满足实践应用的需求。同时，本体建模、RDF、关联数据等基础技术早已在GLAM领域得到广泛应用，知识图谱的技术思想与GLAM领域的资源组织理念高度一致，因此采用知识图谱来解决艺术图像建库的知识化和开放性问题是最为清晰的路径之一。近年GLAM领域知识图谱的实践充分证明了艺术图像知识图谱构建的技术可行性。

从数据基础看，经过长期积累，收藏机构已基本完成所藏艺术图像的编目，部分机构还开展了数字化扫描和深度标引工作，奠定了内部数据基础。互联网则提供了良好的外部数据环境，世界上各大机构已经发布许多相关数据集，如盖蒂的艺术与建筑叙词表(Art&Architecture Thesaurus)和艺术家联合目录(The Union List of Artist Names)，Google的谷歌艺术数据接口(Google Art Wrapper)，还有大量的概念图谱、人物图谱以及通用知识图谱。这些数据集可以有力地支撑本地数据的连接、补全与融合。

从应用需求看，新环境下GLAM面临着对艺术图像进行高质量管理和服务的挑战。进一步推动艺术图像资源的建库和开放，才能响应数字人文与新文科发展的号召，更好地满足科研教育、文化娱乐、商业服务等行业获取艺术图像数据的需求。时代的发展也在呼吁增加高质量文化资源供给，以丰富民众的文化生活，促进文化遗产的保护与传承。

3 案例研究

3.1 S艺术数据库简介

S艺术数据库是一个采集、购买经典美术作品并进行深度加工和系统整理而形成的商业艺术图像数据库，旨在为艺术教育与文化传播提供艺术图像资源、促进艺术教育的普及、推动社会美育和新型公共文化服务体系的发展。2016年S艺术数据库建成并向100多家图书馆提供艺术图像检索、浏览和下载服务。目前该库收录了古今中外包括油画、素描、雕塑、国画、书法、传统壁画等27个大类15万余件高清艺术作品，整理了全球1.3万多位艺术名家和4，000余家艺术机构的信息，同时提供艺术专题、作品解读、线下展览等增值服务。

3.1.1 系统功能

S艺术数据库由管理平台和用户服务平台两部分构成。管理平台提供资源处理和系统管理功能，用户服务平台包括艺术图片、艺术家、艺术机构三大核心功能，故事、主题、展览等聚合功能，艺术时期、艺术类型、风格流派、国别等分面功能，其系统架构见图2。

图2 S艺术数据库系统架构图

3.1.2 元数据设计

S艺术数据库的数据描述基于都柏林核心元数据集(DCMES)制定，共分艺术品、艺术家、艺术机构3个主表，国家、时期、艺术词典、艺术资讯、艺术主题、风格流派等近10个附表，以及10多个辅助桥表。以艺术品为例，设置唯一编号、作品名称、作者、作品类型、材质技术、作品尺寸、释文、款识、钤印、鉴藏印、简介、注解、创作起止时间、创作地点、拍卖经历等15个核心字段以及更新时间等近10个辅助字段。作者字段的取值受艺术家表的约束，作品类型、材质技术等字段的取值受相关规范性附表的约束，实现了一定程度的数据规范化。艺术家表涵盖中文名、西文名、别名、出生时间、出生地、艺术特点、艺术成就、受启发于、施影响于、传人、年表、简介、历史评价等核心字段，艺术机构包括名称、别名、主要馆藏作品、主要馆藏艺术家、成立时间、地点、官方网址、简介等核心字段，不再赘述。

3.1.3 内容组织与利用

S艺术数据库采用关系型数据库来储存描述数据，采用XML来存储图像文件的多层分割信息，切割后的图像文件则分布于云存储中，在检索方面采用开源全文搜索引擎Lucene实现全库索引和数据的高效查询。该库以艺术品、艺术家、艺术机构三大核心功能来组织内容，三者之间的联系通过冗余字段和一系列桥表实现，数据的著录通过人工辅以少量机器处理完成。三大核心功能均实现首字母、时期、类型、流派、国别等分面组织。此外，通过人工编辑，以艺术专题和故事的形式，实现相关内容的聚合、解读和导览服务。该库提供了基于名称、简介等字段的基本检索和组合检索功能，并支持二次检索。在详情页面，除提供当前记录的字段信息外，还提供相关内容的展示或链接，如艺术家详情页面展示该艺术家的代表作品以及相关人物。在图像呈现方面，提供近十层的缩放浏览功能，支持组图模式，可以拖动、全屏化和保存当前显示的图片内容；提供高清原图的下载功能，满足用户本地利用的需求。

3.2 S艺术图像知识图谱的设计与实现

数字人文的兴起和新文科的发展对艺术图像建库提出了数据标准化、知识化和开放化要求。鉴于此，S艺术数据库进行知识抽取、内容重构和知识存储等方面的探索开发，从而构建一个艺术图像知识图谱，踏上从资源服务到知识服务的转型发展之路。

3.2.1 系统架构

S艺术图像知识图谱的构建有三方面需求。一是完整继承S艺术数据库的数据与功能，以保证服务的平滑迁移；二是构建本体，从数据中抽取实体、属性与关系，实现内容的知识化表示和存储，以提供知识关联服务；三是融合第三方开放知识图谱，丰富本地数据，以提供更全面的内容。其构建实质上是一个GLAM领域典型的数据转换项目，系统架构见图3。

图3 S艺术图像知识图谱系统架构图

3.2.2 本体构建

S艺术数据库采用人工知识建模的方式构建本体。第一步分析数据结构，列出所有要继承的字段元素，并正确区分属性和关系，将诸如“类型”“创作地点”“受启发于”等用于揭示实体之间联系的字段梳理出关系元素集合。第二步参考和借鉴现有领域本体模型，依据“最大复用”原则设计概念模型，复用成熟的术语并自定义特有的实体属性。最后梳理出完整的分类体系、实体属性和关系，定义必要的约束条件，从而得出本体模型如图4所示。

图4 S艺术图像知识图谱本体模型

以艺术品为例，其本体设计充分复用DCMI的abstract、contributor、created、creator、description、format、hasFormat、identifier、language、modified、subject、title、type等属性和Location类，复用FOAF、Schema.org、W3C Time Ontology的Event、Image、Organization、Person等类及相关属性，并自定义Artist、Institute、Signet、Work等类及必要属性，构成艺术品本体如图5所示。

图5 艺术品本体模型

3.2.3 知识组织与利用

经过初步的知识抽取与处理，S 艺术数据库共形成了近18万个实体共290余万个三元组。由于数据规模较小，且利用模式相对简单，因此采用Neo4j图数据库进行存储。图像的切割信息与文件仍以原方式进行存储。为更好地兼容传统检索需求，采用Elasticsearch作为全文搜索引擎。

S艺术图像知识图谱仍围绕艺术品、艺术家和艺术机构三大核心要素组织内容，原有的类型、国别、时期、流派等分面属性，则形成具有取值约束的分类，从而更好地提供多条件筛选功能。构建知识图谱后，不仅实现了艺术图像资源的概念化描述，支持内容的准确导航和精准搜索，而且实现了数据之间的知识关联，数据图中的任意一个节点和边都可以成为检索入口，为用户提供某一实体的属性以及相关实体的列表等信息。

除检索外，知识图谱为用户提供强大的知识发现与融合功能。例如，用户在浏览赵孟頫的详情页面时，不仅显示基本描述信息，也提供他的所有作品列表和相关艺术家列表等；同时，通过关联数据消费技术，实时呈现第三方知识图谱如DBPedia的相关内容，从而提供互联网链接服务。而且，通过网络爬虫不断获取第三方开放知识图谱及其他网站上的相关数据，进行数据清洗并实现实体的共指消解和链接，进而融合到本地知识图谱之中，可以形成一个可生长的数据系统。

此外，知识图谱还提供了知识分析服务和数据开放服务的可能性。通过可视化技术，可以将用户的检索结果进行可视化呈现，更好地展现资源及其内在联系；通过数据开放接口，可以为用户提供形式化数据，有利于数据的深度利用。

3.3 对比分析

S艺术数据库作为一个商业数据库，核心需求是更好地组织和提供资源。与其他强调计算的知识图谱不同，S艺术图像知识图谱侧重于资源的揭示与服务。从系统功能、内容揭示、数据关联和开放等方面进行对比分析，发现知识图谱相较于传统数据库具有先进性。

在系统功能上，知识图谱具有明显的优势，尤其是在数据复用、属性拓展和数据自动更新等方面有突破性进步。例如，S艺术数据库需要为艺术品增加一个色彩属性，不仅要修改作品表的数据结构，还要重构相关代码，实现难度很大。建成知识图谱之后，这样的修改需求比较容易实现。

在内容揭示上，知识图谱实现了资源潜藏知识的显化和检索，并对传统数据库难以胜任的关系查询、探究式搜索提供了良好的支持。例如，要在内容详情页面实现资源推荐功能，传统数据库只能根据当前内容有限的数据冗余和桥表，以同作者、同类型、同国籍等简单关联信息进行推荐，知识图谱则可以整合不同层级、多种关系的内容，为用户推送更全面、更精准的资源。

在数据关联上，传统数据库只能通过字段冗余或桥表来实现，而知识图谱采用图数据进行数据存储，数据之间的联系天然存在且易于计算与呈现。对于外部数据，传统数据库由于不具备语义，只能针对不同的外部数据集开发不同的接口去实现关联，而知识图谱通过本体的解析，只需少量代码就能准确连接多源异构的外部数据。

在数据开放上，传统数据库要么提供裸数据下载，要么通过特定接口开放查询，第三方需要学习接口文档后进行定制开发才能接入，且数据缺乏规范性和语义性。知识图谱只需开放本体描述和查询端点，第三方就能按照语义数据消费的一般规则，获取和利用所需知识数据。

表1 S艺术数据库与S艺术图像知识图谱对比分析表

4 讨论

4.1 价值

艺术图像知识图谱的构建能促进GLAM馆藏资源的开放和利用。对艺术图像进行规范性、一致性的形式化描述，揭示艺术图像资源中隐含的知识，如人物、时间、事件等实体及其相互之间的关系，实现图像内容的知识化组织，可以更好地支持资源的检索和利用，并使知识共享成为可能。艺术图像知识图谱的广泛构建将释放GLAM馆藏的巨大能量，为文化产业发展提供高质量的知识资源，从而促进文化遗产的保护、传播与传承，推动文化事业进步。

艺术图像知识图谱能推动人文学科研究深入发展。艺术图像对人文学科的重要性毋须重提，但如果仅仅是把图片上网，没有进行规范性标注、没有揭示其中蕴藏的知识、没有融合文本与知识数据，那么对学者而言，它是难以发现和难以解读的。在数字人文时代，研究者们渴求更全面、更准确、更便捷的数据服务。艺术图像知识图谱的构建是GLAM主动推进知识服务升级，实现艺术图像丰富内涵的显性化和知识化表达的举措，将充分发挥艺术图像的研究价值，为人文学科的交叉研究和融合发展奠定知识资源基础。

艺术图像知识图谱能助力机器认知智能的关键性突破。知识是机器实现认知智能不可或缺的基本条件。以图像领域而言，当前研究所用的样本空间数据往往缺乏知识关联性，因此计算机视觉虽然在算力大幅提升和算法快速进化的基础上取得了重大突破，但其解决的仅是图像中有什么东西的问题，对图像表达了什么内容、传递了什么价值、象征了什么意义，尚不能给出答案。潘诺夫斯基将艺术图像意义的阐释分为基于视觉因素的事实主题、基于文化背景的图像寓意和基于哲学探究的象征形式三个层面[44]。缺乏人类对线条、色彩、形状的认知知识，缺乏文献资料所反映的概念和主题知识，缺乏时代性的文化观念知识，机器永远无法真正地理解图像。艺术图像知识图谱的广泛构建，将为机器学习提供大规模形式化的人类解读数据集，有助于人工智能的发展。

4.2 问题

在当前环境与技术条件下，艺术图像知识图谱构建主要面临两方面问题。一是技术应用。虽然知识图谱技术发展迅速，在构建的各个环节已有相应的解决方案和开源工具，但仍存在不少技术挑战。例如，高质量标注数据的获取和知识化处理、结合计算机视觉最新成果的图像自动标引、时空语义的增强、图像知识的分析模式构建等都需要在实践中寻找解决方案并推动技术的突破。二是资料融合。艺术图像不是孤立存在的，它与同时期的文本、实物息息相关，共同反映历史和文化的真实。因此，对艺术图像的解构，需要引入与之相关的其他文献资料来提供背景知识、研究素材和分析依据。这就要求艺术图像知识图谱构建要有“大文献观”，不应拘泥于一库、一馆、一学科，而是充分发挥知识图谱开放共享的特性，实现跨媒体、跨领域、跨语言的知识融合。

就本文而言，仅以S艺术数据库为案例，初步探讨艺术图像知识图谱构建的本体设计、内容存储、系统设计与比较分析等应用问题，并未对知识抽取、知识融合等深度应用进行介绍，也未展开不同类型艺术图像语义标注模型的深入讨论，有待方家深入研究。

5 结语

人工智能领域有句名言：“有多少人工就有多少智能。”相较于文字，艺术图像作为人类文化一种更直接、更丰富也更模糊的表达方式，其解读更为困难，对于机器而言更难以理解。艺术图像知识图谱的构建，可以将无数先人积累下来的、关于艺术图像的知识成果转化为有语义、可关联、可计算的数据库，从而增强机器认知能力，最终帮助人们从大量繁琐、反复且低效的资料处理工作中脱离出来，专注于真正问题的思考。相对于传统数据库，知识图谱可以为艺术图像的组织和内容揭示提供更好的工具，有助于GLAM馆藏艺术图像资源开放与广泛利用。