人工智能在有害信息识别服务的应用和发展趋势

2018-05-18

信息通信技术与政策 2018年4期

关键词：网络安全人工智能信息

1 引言

随着数据的不断增长，计算能力的大幅提升，人工智能技术呈现跨越式发展，“人工智能+安全”的应用受到了各界的广泛关注，涌现出众多的研究成果。

在内部威胁防御方面，通过对内网中的安全风险进行关联性分析，并综合分析内部威胁的要素，评估当前的网络安全状况，来预测内部威胁，进而构建整体的内部威胁感知防御体系。

在态势感知方面，通过对互联网中的网络流量进行采集、清洗，利用大数据技术和机器学习技术，综合分析网络行为以及用户行为等因素，从而构建整个网络当前状态和变化趋势。

在有害信息识别方面，基于机器学习、深度学习算法的分析，能够更好地对数据进行聚合、分类、序列化，有效监测识别网络中的有害信息，提升了有害信息的检测效率。本文主要分析人工智能在有害信息识别系统的应用领域、发展趋势及面临的挑战和应对措施。

2 有害信息识别服务总体架构和应用领域

随着有害信息识别技术的不断发展，通过与人工智能算法的深度结合，有害信息的识别也实现了质的飞跃。有害信息识别系统总体框架可分为3层：一是数据采集层；二是数据分析层；三是数据展示层（见图1）。

（1）数据采集层

该层主要是对网络上的数据进行采集，面对的对象分别是文字、图像、视频数据，内容覆盖新闻网站、热门论坛、微博、主流视频网站。通过采取大量的数据作为原始数据集，并对原始数据进行分类整理，筛选出高质量的有害信息数据集供数据分析层使用。

（2）数据分析层

该层主要是对数据采集层的数据集进行分类、清洗。通过机器学习的方式对数据进行分析，得出大型的文字、图像、视频的指纹库，通过监控的方式对文字、图像和视频进行有害信息识别。

（3）数据展示层

该层主要是通过对监控互联网上的论坛、微博等UGC产品的信息进行比对，分析得出结果。通过屏幕展的方式展示出数字预警、结果的审核、违规的报告、关键词管理以及监控范围等功能，供监管者进行管理和决策。

目前，有害信息识别系统服务主要应用在文字、图片和视频领域。

在图片鉴别领域，主要是通过人工智能模型对图片中的人、物或标识与实时更新的有害样本库进行对比，及时发现预警并处置。如在鉴黄方面，会将一张图片分为三个涉黄程度，分别为色情、性感、正常三个分值，通过比对样本库对违规的色情图像进行自动过滤。

图1 有害信息识别系统总体架构图

文字识别领域，主要是使用光学字符识别（Optical Character Recognition，OCR）算法，精准定位文本中文字内容、文字类型等，采用自然语言处理（Neuro-Linguistic Programming，NLP）算法识别色情、暴恐涉政、广告、辱骂等文本，并且能够结合行为策略有效管控灌水、刷屏等恶意行为。

视频直播领域，主要通过使用图像截帧识别、语音识别、文字识别、人脸识别等技术对视频进行检测，通过自然语言处理与视频指纹库进行视频对比，及时发现涉黄、涉暴、政治敏感、广告、违禁品等风险内容。

3 有害信息识别服务发展现状和面临的挑战

有害信息识别服务快速发展，改变了传统的审核方式，提升了内容监管智能化水平。在数据共享、识别技术等方面，逐渐达成共识，助力我国信息监管智能化水平的提升。

（1）监管部门积极采取监管措施来应对挑战，但是网络监管形势依然严峻

随着信息传播技术的快速发展、互联网平台的兴起及公众账号数量的日益增多，在一定程度上满足了用户多元化的信息需求。但同时，一些互联网平台落实管理主体责任缺失，部分公众账号在运营中传播低俗色情虚假信息，甚至侵犯他人合法权益。在这一背景下，国家互联网信息办公室先后出台《互联网用户公众账号信息服务管理规定》、《互联网新闻信息服务管理规定》、《互联网跟帖评论服务管理规定》等一系列措施应对挑战。据报道，日前美国连锁酒店万豪国际集团被发现在发给中国会员的邮件中，将中国香港、澳门、台湾、西藏等地区列入“国家”一栏，事件的发生也对未来政府监管提出了更高的要求。

（2）人工智能技术提升内容监管智能化水平，但是最终还需要人工审核

截止到2018年1月，全国网络违法和不良信息有效举报量达400.7万件，环比下降约8.8%，同比增长47.6%（见图2）。互联网违法内容（尤其是多媒体内容）增多，传统依赖网民举报和工作人员的观看监测很难解决海量内容的审查问题。据报道，国外科技公司开始利用AI技术清除互联网上的违法违规内容。如Facebook利用AI技术对互联网内容进行标记，同时开发了一款对用户的视频直播内容进行实时监控识别的工具，可过滤涉黄、暴力等内容；谷歌采用AI和人工审核结合的方式审查YouTube付费内容。但目前AI技术并不能完全取代人工审查，AI系统反馈的审查结果最终还是需要由人判定。

图2 全国网络违法和不良信息有效举报量

（3）企业逐渐成为人工智能领域的中坚力量，但是信息识别资金投入较少

据前瞻产业研究院统计资料显示，随着人工智能技术的快速发展，企业也在不断探索AI技术在信息识别方面的应用（见图3）。人工智能产业市场规模呈现爆发式增长，从2014年的48.6亿元增长至2016年的95.6亿元，年均增长率高达40%。通过利用机器学习的聚类分析、关联分析等相关算法，辅助完成互联网信息内容分类和安全监管，实现对互联网不良信息的实时监测、预警和处置，企业逐渐成为创新的主体，成为识别有害信息识别系统的中坚力量。据报道，我国网络安全投入占IT投入的比例仅约为2%，远低于海外12%的平均投入水平。企业在对基于人工智能技术的安全应用投入研究，也仅仅占有很少一部分的资金，这也是目前有害信息识别系统发展的弊病。

（4）互联网公司联合发起“清网”倡议书，但是有害信息共享依旧很困难

2015年10月30日的消息称，百度、阿里巴巴、腾讯、新浪/新浪微博、优酷、陌陌6家互联网公司共同发出《关于“清朗网络空间，文明网络行为”的联合倡议》，呼吁互联网从业者自觉抵制网络庸俗、低俗、媚俗之风，努力为构建清朗网络空间做出贡献。同时，他们也表示将加强相互之间的沟通协作，建立健全互联网行业自律机制，致力于建立网络信息安全联动工作机制，实现互联互通和信息共享，共同抵制网上不法行为。但是，由于在实施的过程中各家的数据格式、名称不一致，因此互联网公司至今仍很难做到有害信息互联互通、工作很好地联动。

（5）国家通过系列措施加大对AI人才的培养，但是信息识别人才依然紧缺

近年来，人工智能已成为世界各国掌握国际科技竞争主导权的核心竞争力。我国也不断出台新政策与发展规划支持，积极布局人工智能。而人工智能的异军突起也对人才培养的改革创新提出了进一步的要求。为此，不少高校开设人工智能学院，设立人工智能相关专业、课程，以便更好地适应行业发展的巨大需求。与此同时，国务院印发《新一代人工智能发展规划》，明确指出应实施全民智能教育项目，在中小学阶段设置人工智能相关课程，逐步推广编程教育。今年，人工智能、物联网、大数据处理等内容正式进入了全国高中“新课标”，人工智能教育在社会掀起一阵学习风潮。但是，据大街网的数据显示，我国人工智能人才缺口超过500万，精准AI人才50万，供求比例仅为1：10。存在着人才数量缺口较大、能力素质不高、结构不尽合理等问题，与维护国家网络安全、建设网络强国的要求不相适应。