APP下载

日本国立国会图书馆人工智能实验室的实践与启示

2020-10-09

图书馆研究与工作 2020年10期
关键词:国会人工智能图像

王 剑

(营口理工学院图书馆 辽宁营口 115014)

1 引言

1956年,J.McCarthy[1]在美国达特茅斯会议上正式提出人工智能(Artificial Intelligence,简称AI)概念。在过去的64年中,人工智能取得了国内外的广泛关注和长足发展。我国政府非常重视人工智能的发展。2017年被称为我国人工智能发展的元年,因为这年我国首次将人工智能写入《政府工作报告》,并且出台了《新一代人工智能发展规划》[2]。人工智能已经成为第四次产业革命的核心技术,成为我国经济发展的新动力,并影响着我们生活的方方面面。

人工智能也推动着图书馆的发展,受到了国内外图书馆界的关注。国际图书馆协会和机构联合会(International Federation of Library Associations and Institutions,简称IFLA)多次提到人工智能,认为人工智能是未来发展趋势之一[3]。美国图书馆协会(American Library Association,简称ALA)认为人工智能将改变高校的教学与研究模式[4]。现如今人工智能在图书馆的应用以人工智能设备为主,涉及到科研服务、检索服务、学科服务的较少。美国罗德岛大学图书馆人工智能实验室是首个高校图书馆人工智能实验室[5],为高校图书馆人工智能服务做出了有益的尝试。日本国立国会图书馆在2013年成立了实验室,并重点研究下一代数字图书馆,在实验室中应用了许多人工智能技术。本文以日本国立国会图书馆人工智能实验室作为研究案例,以期丰富图书馆人工智能服务方面的研究成果。

2 我国图书馆人工智能综述

人工智能已经成为我国图书馆界的研究热点之一,在中国知网已经收录了200余篇相关文献。特别是从2017年以来,我国图书情报核心期刊发表了不少与人工智能相关的论文,且发文数量呈上升趋势。2017年《图书与情报》分2期发表了10篇图书馆与人工智能相关的论文,带动了国内图书馆界人工智能的研究热潮。这些发表的论文主要围绕以下主题展开:一是人工智能在图书馆各服务领域的应用,董同强[6]、宫平[7]、夏晶[5]、王红等学者[8]分别从学科服务、绘本阅读和教育领域、服务模式等方面探索人工智能在图书馆的应用;二是空间建设的影响,蒲姗姗[9]、郑铁亮[10]等人从人工智能服务下的图书馆空间设计、建筑造型等方面深入研究;三是对图书馆人工智能服务的理性思考。祝凤云[11]认为图书馆应用人工智能服务具有信息泄露、网络攻击、虚假信息等风险,所以图书馆应做好相应的应对措施。欧阳爱辉[12]认为图书馆应用人工智能服务存在相关法律不明、具体服务内容缺乏法律指引、损害救济等配套机制缺失等问题,所以图书馆要做好法律困惑的解决设计。麻思蓓和许燕[13]认为人工智能存在局限性,带来一定的伦理挑战,所以图书馆的人工智能服务应做好相应的评估工作,规避相应的法律及伦理风险,做好馆员信息素养培训等工作。杨九成等学者[14]认为图书馆人工服务存在技术、制度、理念、伦理等方面的缺陷,建议在图书馆应用人工智能服务时从文化回归到人本管理。王文敏和高军[15]等人认为人工智能在图书馆领域有著作权侵权风险。综上所述,我国有关图书馆人工智能服务的研究不少,且研究的切入点也较多,但对图书馆人工智能实验室研究的较少。虽然有学者对美国罗德岛大学图书馆实验室进行研究,但偏向于在教育领域的应用,而日本国立国会图书馆人工智能实验室则倾向于将人工智能技术应用到数据库检索、资源建设等

图书馆核心业务上。

3 日本国立国会图书馆人工智能实验室发展概况

日本人工智能学会成立于1986年,推动着日本人工智能技术的发展,迄今已经取得第五代计算机、极限作业机器人等成就。2016年日本设立“人工智能技术战略会议”,并在《日本再兴战略2016》中提出大力支持日本人工智能发展[16]。2017年日本推出《下一代人工智能推进战略》,明确人工智能技术的发展方向。2018年日本在《新产业构造蓝图》中指出将人工智能应用到智能汽车、医疗等领域。可见日本对人工智能发展非常重视。

日本国立国会图书馆实验室(Lab of National Diet library, Japan,简称NDL Lab)正式成立于2013年[17],利用先进的信息技术应用到新的数字图书馆服务中。由于NDL Lab使用了许多人工智能技术,本文将NDL Lab称为日本国立国会图书馆人工智能实验室。NDL Lab是人工智能技术实验的场所,待技术成熟之后再推向社会。NDL Lab的人工智能服务发展不错,于2019年应邀在IFLA做相关报告[18]。

3.1 下一代数字图书馆

“下一代数字图书馆”是NDL Lab最主要的服务内容,为日本国立国会图书馆搜索提供实验研究而开发的数字图书馆系统,将机器学习和国际图像互操作性框架(International Image Interoperability Framework,简称IIIF)应用到搜索引擎领域,目前支持全文搜索和图像搜索两大功能[19]。“下一代数字图书馆”能为读者提供自动生成的检索结果目录,并自动判断翻页方向。“下一代数字图书馆”可检索的内容为版权保护期已过,进入公有领域的数字化材料,以技术工程(NDC5类)、劳资关系(NDC6类)和艺术书籍(NDC7)为主,截至2019年有58 000种数字化材料。在2019年IFLA世界图书馆与图书馆大会《图书馆:第114届会议的对话——信息技术和大数据的知识管理》上,日本发表论文《数字图书馆的新功能:增强国立国家图书馆的可发现性》进行了系统阐述[18]。

(1)全文搜索。全文搜索支持读者使用OCR软件生成带有关键词的全文材料。在关键词搜索框中输入内容即可获得,并支持在线阅读和下载。以输入人工智能的英文简称AI为例,共检索出7 935个相关记录,第一条结果如图1所示。京都高等工芸学校1933年出版的图书《Saibi 33》中有5处提到AI,分别出现在文字段落和图片中。可见全文搜索不仅支持段落文字,也支持图片中的文字部分。

图1 以“AI”为关键词进行检索的部分结果

(2)图像搜索。“下一代数字图书馆”为读者使用自动裁剪功能进行图像搜索,从图书馆系统中自动提取相似图像,支持4种搜索方式:从样本中搜索图片、从元数据中搜索图片、从本地图像中搜索图片和从插图中搜索图片。①从样本中搜索图片是指为读者提供几张图片,读者选择其中一张跟自己检索意愿最接近的图片进行搜索,系统将为读者返回许多相似的图片供读者选择;②从元数据中搜索图片是指读者输入相应的关键词,系统为读者返回系列相关主题的图片,如以“造船”进行检索可获得578个与造船有关的图片结果;③从本地图像中搜索图片是指读者可在本地上传自己的图片进行匹配检索;④从插图中搜索图片是指读者可在该系统进行绘画,再根据读者的绘画进行系统匹配。“下一代数字图书馆”的图像检索技术提供多种检索方式,并且进行图像自动提取和匹配,满足读者的多方面需求。

3.2 NDC预测器

NDC预测器(NDC predictor)是NDL Lab的一项通过机器学习来猜测日语十进制分类技术[20]。NDC预测器的机器学习技术源于Facebook AI Research开发的FastText(外部站点),用于分类。一般来说,分类类型越少,NDC预测器的准确性越高。NDC预测器1~3位数的准确性分别为86%、82%和76%。读者可在NDC预测器的搜索框中输入自己的问题,给的信息越具体,结果的准确性越高,给的信息越宽泛,结果的准确性越低。以NDC预测器提供的案例1“Dolittle博士的《嘎巴布书》新译本:休·洛夫廷(Hugh Lofting)的系列特别版(Shoichiro Kawai翻译)”为例。由于该案例非常具体,具体到了作者、书籍名、译者和版本等,所以其检索结果的准确性也很高。检索结果“933/美国文学—小说物语”的置信度为0.998。置信度在0~1之间,数值越大表明准确性越高。

3.3 MIMA搜索

MIMA搜索是NDL Lab为读者提供的一种搜索和可视化系统[21],包含了日本国立国会图书馆92万项书目信息和71万项目录信息,通过这些文档的语义关系而进行数据挖掘和可视化展示。MIMA搜索检索到文档的结果一般由带有“点”和“线”的图形结构表示。文档之间的语义关系越强,它们将越靠近图放置,反之则更远,以可视化的图像直观地理解文档之间的关系。本次研究以“人工智能”为关键词,在MIMA的搜索结果如图2所示。从图2可知,在MIMA搜索系统中形成了7大与人工智能相关的群组,其中图形最大的是与“智能检查”有关。

图2 以“人工智能”为关键词在MIMA的搜索结果

除了图形展示,MIMA还提供了作者、出版地、出版年份、出版机构、语言分类等多种分类方式,读者可以根据自己的需要进行精炼并形成相应的可视化图形。

3.4 其他服务

(1)联合录入。Hoso-Digi[22]是NDL Lab推出用于联合录入和文本校对进入公众领域的图书。该系统由隶属于日本数字人文学会(Japanese Association for Digital Humanities,简称JADH)的子委员会SIGTranscribe JP的长崎实验室人文与信息科学研究所首席研究员开发。Hoso-Digi旨在通过众包的方式,让许多参与者输入和校对文本,从而提高NDL Lab读者的便利性。目前Hoso-Digi已经在“下一代数字图书馆”中进行应用。

(2)图像提取。Kokudeco Image Wall[23]也是长崎实验室人文与信息科学研究所首席研究员开发,支持读者将图片和图表从日本国立国会图书馆数字馆藏的页面中提取出来,并形成缩略图。在该缩略图中有该书面的简要介绍及原文获取的相关链接。截至2019年3月,在Kokudeco Image Wall系统中已注册了2 002卷(22 321例)数据。

(3)关联搜索服务。为了让读者能获取更多的文献,NDL Lab推出了国家信息学研究所特聘副教授安部武史(Takeshi Abe)开发的电子阅读支持系统[24],支持将来自于维基百科等非NDL自身拥有的信息源的相关参考信息推送给读者。该系统通过OCR软件识别处理错误信息,并通过人工更正错误,从而支持阅读功能正常运行。

4 日本国立国会图书馆人工智能实验室的特点

4.1 非常重视人工智能在数字图书馆建设中的作用

人工智能在图书馆的应用最为常见的是智能设备的投入,如图书排架机器人、智能咨询机器人等。但日本国立国会图书馆非常重视在数字图书馆建设中应用人工智能技术,并于2011年就开始尝试,2013年更是设立专门机构NDL Lab,从而大力促进人工智能技术的应用。NDL Lab在近7年的时间里取得了“下一代数字图书馆”、NDC预测器、MIMA搜索等有代表性的人工智能技术成果。由于人工智能技术在研发和应用过程中会出现许多不确定性,可能会给图书馆带来技术、法律和道德风险,故日本国立国会图书馆通过成立NDL Lab进行人工智能技术研发是非常有必要的。人工智能技术在NDL Lab应用成熟之后,再将其推广到现有的数字图书馆系统中。NDL Lab帮助日本国立国会图书馆提高了数字图书馆的搜索水平,丰富了读者的搜索结果。

4.2 需求导向的人工智能技术应用

①为了提高可搜索性,NDL Lab在“下一代数字图书馆”中使用了OCR技术,从而帮助读者能进行全文搜索。②为了提升读者的图像搜索准确性,NDL Lab通过深度学习方法DeepLab V3+,首先提取读者提供的图像领域,再通过相似度和分辨率进行快速匹配,从而实现图像的自动剪切搜索技术。③“下一代数字图书馆”中的书籍都是进入公共领域的,年代久远,故存在变色而难以读取的难题。为了解决这个问题,NDL Lab通过深度学习方法pix2pix对原图进行矫正而获得白度图像,从而提升了图像的可读性。④日本国立国会图书馆的数字馆藏通常采用纵向布局的数字化资料,但不适合智能手机和平板电脑终端使用。为了适合智能终端上查看图像,NDL Lab使用语义分割方法在展开位置自动分割,逐页显示,并自动删除多余的背景,因此图像会显示出更大的尺寸,从而自动适应智能终端设备。

4.3 通过活动促进数据和服务利用

NDL Lab通过“NDL数字图书馆咖啡厅”和“城市数据挑战赛”两种活动,促使更多人使用日本国立国会图书馆的数字资源。

(1)“NDL数字图书馆咖啡厅”。为了加强公共图书馆与科研人员、读者的联系,也为了将日本国立国会图书馆的各项数字资源得到充分的利用,NDL Lab于2016年以讲座的形式推出“NDL数字图书馆咖啡厅”。该讲座每次仅限20个人参与,受到日本高校和科研机构的欢迎。自2016年以来,NDL Lab每年都举办“NDL数字图书馆咖啡厅”,举办次数从2016年的一年一次增加到一年两次。“NDL数字图书馆咖啡厅”主要探索数字图书馆相关的研究和最新趋势,并介绍NDL的最新发展技术等。

(2)城市数据挑战赛。为了让日本国立国会图书馆的数据能够在各个领域得到利用,日本国立国会图书馆于2019年举办了城市数据挑战赛,以期利用开放数据解决区域性问题,并得到了京都市政府的大力支持。城市数据挑战赛的数据来源广泛,具体包括日本国立国会图书馆提供的“参考协作数据库”中注册的图书馆和档案馆、相关地方政府发布的数据、相关门户网站提供的图文博档单位。日本国立国会图书馆希望参与者能通过这些数据解决实际问题。

4.4 联合其他机构进行人工智能服务

NDL Lab无论是人工智能研发,还是活动举办都有不少强有力的合作伙伴。在人工智能研发方面,NDL Lab分别与Facebook、JADH、国家信息学研究所等合作,分别推出NDC预测器、联合录入、图像提取和关联搜索等服务。在活动举办方面,与京都市政府合作进行城市数据挑战赛,并与其他机构推出各种开放数据挑战赛。可见与其他机构进行人工智能服务,不仅可以实现技术上的强强联合,还能降低活动经费,从而达到双赢局面。

5 对我国图书馆人工智能服务的启示

5.1 坚持需求导向,重视人工智能在数字图书馆建设中的作用

在我国图书馆发展中,数字图书馆建设显得越来越重要,特别是高校图书馆越来越重视数字图书馆建设。越来越多图书馆愿意投入更多的经费购买数字资源。但在图书馆人工智能服务方面,我国图书馆更多是停留在购买智能硬件设备辅助图书馆进行读者咨询、图书盘点等工作,减少图书馆工作人员的工作量。在我国,将人工智能技术应用到数字图书馆建设中的案例并不多。2017年武汉大学与百度合作建设人工智能图书馆,包括了智能检索和数据追踪等技术[5]。

数字图书馆建设对于我国图书馆的发展显得越来越重要。所以我国图书馆应重视人工智能技术在数字图书馆中的应用。全文搜索与图像搜索是提升读者搜索体验的重要途径。NDL Lab通过多种机器学习方法实现了自动剪切搜索、图像白度美化处理、智能终端屏幕自适应等功能,提升了读者的资源可获取性和搜索体验。目前我国图书馆的数字资源普遍通过采购的形式而获得,缺少自主研发,且对全文搜索及多种图像搜索技术也相对不足。所以我国有条件的图书馆可在技术部门的基础上成立人工智能实验室,尝试将人工智能技术应用到数字图书馆建设中。同时应谨慎处理可能面临的法律、道德和技术风险,待各方面成熟之后再推向读者。

5.2 多渠道推广,促进数据和服务利用

图书馆人工智能建设的目的在于让更多的读者了解并使用这些技术,从而发挥其价值。正所谓建设是为了利用,NDL Lab为了促进数据和服务的使用打造了“NDL数字图书馆咖啡厅”和“城市数据挑战赛”两个活动品牌。为了促进数据和服务利用,我国图书馆可在以下渠道进行推广:一是通过官网、微信公众号、微博、抖音短视频等渠道向读者公布最新的数据资源及人工智能服务进展情况;二是定期开展人工智能论坛,邀请相关专家学者,并组织感兴趣的读者参与,形成品牌效应;三是与高校的大数据、人工智能等相关专业合作,联合举办数据使用大赛,让读者了解数据,并掌握数据解决问题。

5.3 加强合作,应用最新技术,减少成本

人工智能是未来图书馆发展的主要趋势,已经得到了广泛的认可。图书馆人工智能建设,需要大量的经费和技术投入。

在技术投入方面,图书馆可能相对欠缺,需要外部技术支持。如NDL Lab就借助了Facebook、JADH、国家信息学研究所等的技术力量,联合开发人工智能技术。我国图书馆可尝试与百度、腾讯和阿里巴巴联合开发数字图书馆中的人工智能技术,百度和武汉大学图书馆的合作就是个很好的案例。图书馆人工智能有助于数字人文建设,故图书馆也可争取数字人文工作人员共同研发人工智能技术。除了加强外部合作外,我国图书馆的技术人员应掌握人工智能技术前沿及发展趋势,让图书馆人工智能发展与时俱进。

在经费投入方面,图书馆需要投入不少的经费用于设备采购、技术研发和活动推广。为了减少图书馆在人工智能方面的经费压力,我国图书馆也可加强外部合作。如在设备采购方面,图书馆可争取智能终端厂商以提供产品免费展览为由,降低产品的采购价格,甚至让厂商赠送该产品;在技术研发方面,图书馆可争取与外部机构进行联合开发,知识产权共同所有;在活动推广方面,图书馆可争取相关的机构联合开展。如NDL Lab的“城市数据挑战赛”获得了京都市政府的支持。我国图书馆也可邀请相关的政府机构或者智能终端厂商、数字图书馆供应商在活动推广时进行相应的赞助活动,从而降低图书馆人工智能活动推广经费压力。

5.4 加强对进入公有领域文献的开发利用

日本国立国会图书馆非常重视对进入公有领域文献的开发利用。NDL Lab开发的“下一代数字图书馆”、NDC预测器、Hoso-Digi等服务都是面向进入公有领域的文献。进入公有领域的文献不会产生知识产权问题,同时也是人类文明智慧的产物。我国拥有几千年的历史文明,拥有丰富的进入公有领域的文献。所以我国图书馆非常有必要对进入公有领域的文献进行开发,并通过人工智能技术加强这些文献的使用。有些图书馆通过数字人文技术将古籍文献进行开发利用,如上海图书馆开发了数字人文项目的开放数据平台,以家谱、手稿档案、古籍等创建文献知识库。在对进入公有领域文献的开发利用过程中,不仅可使用数字人文技术,也可如NDL Lab那样使用人工智能技术。

6 结语

图书馆人工智能实验室具有平台优势,可吸引国内外人工智能机构、专家学者共同参与,提升图书馆人工智能服务水平。我国图书馆可根据实际情况,在创客空间和数字人文中心等基础上摸索出适合图书馆自身的人工智能服务发展路径。

猜你喜欢

国会人工智能图像
浅析p-V图像中的两个疑难问题
巧用图像中的点、线、面解题
有趣的图像诗
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!
“娘子军”
趣味数独等4则