机器学习仍存安全“盲区”对抗学习任重而道远

2021-05-19

海外星云 2021年3期

随着人工智能的兴起，机器学习热度不断攀升，机器学习带给我们智能化生活的同时，其本身的安全性问题也逐渐进入人们的视线，该安全问题起初由l a nGoodfellow和Papernot二人提出，可以将其二人提出的问题定义为机器学习的安全和隐私问题。在机器学习发展与完善的过程中，安全问题同样不容小觑。

机器学习指的是研究计算机如何模拟或实现人类的学习行为以及获取新的知识或技能的学科，机器学习产业链由三部分组成，可以细分为上游基础层，中游技术层，下游则多与垂直领域结合。

机器学习广泛应用于金融、教育、医疗、工业、零售、能源等多个垂直领域，在 2014年～2018年，其行业市场规模从2014年的8.7亿元增长至2018年的52.5亿元，年复合增长率达到了56.7%。预计至2023年，机器学习市场规模将达336.7亿元。

机器学习应用的安全性，对抗学习必不可少。

所谓的对抗机器学习就是作为机器学习研究中的一个安全细分的方向，它可以在一定程度上保证机器学习应用模型的安全性。

这是由于现在的模式识别技术包括语音、物品识别它们都借助机器学习中的深度学习得到了长足的进步。但是同时这些技术也很容易被对抗样本所迷惑，而所谓的对抗样本，就是指一些为识别任务精心打造的故意混淆和误导检测任务的样本。

如图片中在人眼识别中完全看不出差别的图片，由于对抗性噪声的加入，使得原本的雪山被机器识别为了狗，原本的河豚被机器识别成了螃蟹。

在近些年来的研究中进一步发现，不仅仅是像素级别的扰动，在真实世界中也存在着大量的扰动，即便是日常生活中我们肉眼可以做出简单区分的事物，在通过摄像机镜头的采集后，也具备了攻击性。

正如直播中李博给我们带来的分享，如停止标志牌，无论是没有涂鸦的还是有涂鸦的，对于人来说都是肉眼可以识别的停止标志，但是对于自动驾驶的识别系统来说，附加了涂鸦的车牌则可能会被认为是一个非停止的标志。

真实世界测试：下图左右两边都是停止标志，但是左侧由于干扰，机器学习将标志误识别为限速45，所以汽车在停止标志下也不会停止。

依然是真实世界的测试：停止标志被加上了图画后，机器学习无法识别，从而无法做出停止的行为。

現阶段对模型攻击的分类

主要分为两大类，他们是从训练阶段和推理阶段来进行。

训练阶段的攻击，主要的方法就是针对模型的参数进行微小的扰动，从让而达到让模型的性能和预期产生偏差的目的。

训练阶段

标签操纵

标签操纵就是直接通过对于训练数据的标签进行替换，让数据样本和标签不对应，从而最后训练的结果也一定与预期的产生差异。

输入操纵

输入操纵是比较直接的攻击方式，主要是通过在线的方式获得训练数据的输入权，操纵恶意数据来对在线训练过程进行扰动，最后的结果就是产出脱离预期。

推理阶段的攻击，是当一个模型被训练完成后，可以将该模型主观的看作是一个盒子，如果该盒子对我们来说是透明的则可以将其看成“ 白盒” 模型，若非如此则看成“黑盒”模型。

对抗攻击的防御机制

抵御对抗样本攻击：主要是基于附加信息引入辅助块模型进行额外输出来作为一种自集成的防御机制，尤其在针对攻击者的黑盒攻击和白盒攻击时，该机制效果良好。

除此之外防御性蒸馏也可以起到一定的防御能力，防御性蒸馏是一种将训练好的模型迁移到结构更为简单的网络中，从而达到防御对抗攻击的效果。

对抗学习前沿趋势

虽然目前对抗学习方面的研究已经提出了许多对抗样本生成的攻击算法，但是防御机制方面仍然存在着大量的提升空间。针对不同的攻击方式，防御手段通常是修补漏洞，目前没能找到一个标准化的通用的方式，来对所有的对抗攻击方法进行防御。

即使是上面所说的无论是辅助块模型，防御性蒸馏，还是现在发展热度很高的胶囊神经网络等，集成方式都是成熟度不高，且没有形成完整的防御体系，仅能在局部取得有效的防御效果。在对抗攻击的方向上，防御技术和机制仍然存在很大的发展前景。

也如直播中李博讲到的对于对抗学习未来商业化应用的介绍，对抗学习未来在自动驾驶领域将大有作为，为我们的安全驾驶保驾护航。同样在医疗领域通过对抗学习去除躁点，也大大提高了医疗的精确度。在患者隐私层面，通过对抗学习来修改并保护隐私信息亦是大有可为。

在对抗学习远大的商业发展前景下，机器学习行业不断的开始涌现出足够多的优秀企业，这些企业也在不断的推动对抗学习的发展。

走在前列的机器学习相关企业

竹间智能

竹间智能是一家利用深度学习、情感计算、计算机视觉等技术来研发可对话机器人产品的机器学习公司，其人工智能解决方案包括“AI+金融”“AI+零售”“AI+教育”“AI+政务”等。

2016年1月，竹间智能获得A轮2，500万美元融资。2018年12月，竹间智能获得B轮 3，000万美元融资，其中由中华开发金控领投，国泰金控跟投，科沃斯、尚珹投资持续加注。

第四范式

第四范式是一家将机器学习、人工智能、大数据等技术运用于金融、电信等领域的大数据科技公司，其产品包括SageAI平台、SageHyperCycle ML、Sage HyperCycleCv、智能风控平台等。

2015年7月，第四范式获得天使轮1 0 0万元人民币融资。2 0 1 6年5月，第四范式获得来自创新工厂的A轮100万美元融资。2017年12月，第四范式获得B轮融资。2 0 1 8年1 2月，第四范式获得C轮融资超过了10亿元人民币，投资方包括红杉资本、保利资本、三峡资本、中国农业银行，中国交通银行，中信银行等。

库柏特

库柏特是一家以机器学习、计算机视觉等人工智能技术为核心，从事机器人及对应软件研发、生产、等相关业务的公司。库伯特主要针对物流、医疗、食品、教育、电子等行业提供技术解决方案。

库柏特的产品包括C O B O T S Y S、C G R A S P、CPOLISH、CAssemblyC2、COMATRIX、COHAND等。

1 . C O B O T S Y S是一款以计算机视觉、智能力控、抓取规划与机器学习等技术为基础的智能工业机器人操作系统，可实现重力标定、力位混合控制、接触保护、过程监控等功能。

2. CGRASP是一款机器人柔性抓取产品，其可根据抓取物品的种类自适应选择视觉算法及运动路径，主要应用于物流、医药、食品、电子、零售等行业。

3. CPOLISH是一款融合机器视觉与智能力控技术的打磨系统，该系统通过3D相机可对打磨工件进行扫描建模，并计算出工件在三维空间中的坐标，再根据视觉重构的模型生成路径，实现打磨工艺路径设计。

4. CASSEMBLYC2是一款机械臂操作产品，该产品配备了六维传感器以及腕部视觉相机。

5. COMATRIX是一款3D视觉产品，具有GPU处理能力。

6. COHAND是一款柔性机械手产品，可兼容Windows、Linux、ROS操作系统，主要面向教育科研、物流分拣等领域。

2016年6月，库柏特获得天使轮100万人民币融资。2017年3月，库柏特获得A轮 4，000万人民币融资，投资方为经纬中国。2017年12月，库柏特获得B 轮融资1.02亿元人民币，投资方为纪源资本、Matrix Parnters等。

Ayasdi

Ayasdi是DARPA（美国国防部高级研究项目组）资助的一家初创公司。其核心技术“ 拓扑数据分析”可以找到复杂数据中的细微模式。

Ayasdi一直在美国与各个顶级医院和药厂合作。医院和制藥公司可以从公开的信息源获得很多数据，并和他们自己的数据结合起来，进行一些新的研究。

Digital Reasoning

Digital Reasoning是一家擅长认知计算，运用机器学习来识别沟通数据中有意义的人类行为的公司。它可以利用人工智能来积累上下文，填补任何来源的认知空白，以此来明确事物的价值取向，并通过揭露隐藏关系、暴露风险和潜在机会来得出结论。

Digital Reasoning公司研发出的机器学习平台能比传统的工具更加智能地识别出银行的内幕交易及价格操纵行为，其在知识图谱的基础上可以做到真正的理解用户的需求，不再拘泥于用户所输入语句的本身字面意思，而是透过文字挖掘真正的需求，准确地捕捉到用户所输入语句后面的真正意图，并以此来进行搜索与挖掘，从而更准确地向用户反馈结果。

Digital Reasoning公司还与美国纳斯达克（ Nasdaq ）进行了合作，协助其建设监测资本市场的工具。Nasdaq在2020年5月份对其投资了4000万美元。

Darktrace

Darktrace是一家使用机器学习来提供“企业免疫系统”的网络安全系统的公司，该系统模拟人体免疫系统：在了解了什么是所有设备和用户的“正常行为”后，通过环境的改变来更新洞察新出现的信息，然后寻找存在异常情况的安全问题。

企业免疫系统目前是世界上最先进的网络防御机器学习技术。由于该系统受到人体免疫系统自我学习自我防御的启发，这种新技术在复杂多变的网络威胁的新时代中，使组织的自我保护方式发生了根本性的转变。

Qburst

QBurst堪称机器学习公司中的先驱。QBurst通过机器学习以业务所需求的速度做出数据驱动的决策，并根据客户需求定制解决方案，提高效率，大大提高生产力，预测新机遇与需求，以及其他许多的可能性。

1. 能源需求预测：机器学习预测系统可以利用过去的能源消耗数据和天气参数来预测未来的能源需求。将经过时间考验的SARIMA模型与新的机器学习技术相结合的混合预测模型也在不断发展。

2. 欺诈识别：建立在合法和欺诈交易已知案例上的模型，可以为新交易分配怀疑分数，从而帮助识别信用卡欺诈。利用决策树和贝叶斯网络对保险索赔中的欺行为进行预测和标记。

3. 预见性维护：在地理上分散的位置对机器进行持续的监控，同时检测算法可以根据历史数据分析实时的机器参数，从而识别设备的恶化状态。因此，运营商可以启动预测性维护，防止对资产造成不可逆转的损害。

4. 病历注释：电子健康记录作为大数据分析中患者数据的丰富来源，由于其本身的高度非结构化，并不适合直接进行分析。故在NLP中使用机器学习，可以对患者的症状、治疗周期和康复等实体进行分析和标记，使它们在临床决策时更加容易被检索。

5. 卫生信息学：将NLP与语义知识处理和机器学习相结合的智能系统可以帮助研究者更快地查找特定问题的研究文献。

6. 医学图像分析：监督机器学习技术应用于医学图像分析，通过计算机来辅助诊断某些特殊部位疾病，如脑部。基于大量标记图像（如CT和MRI扫描）训练的模型可以自动检测疾病指标并帮助医生做出预测判断。

7. 智能广告牌：通过使用实时图像识别应用程序，零售商将客户按照年龄，性别，甚至种族肤色等进行分类以便于在数字广告牌上展示有针对性的广告来提高交易成功率与知名度。

8. 推荐产品：基于用户画像的某些特征或者共性，以内容和算法协同过滤的用于生成特定于用户的推荐。这些推荐可以按照特定画像特征的用户，以及相似用户喜欢的项目来进行推荐。

9. 情感分析：从运用自然语言处理，用户情感可以被挖掘，以此为基础来建立更多具有影响性的商业活动。

机器学习前沿发展趋势

胶囊网络（CapsNets）是Hinton提出的一种新型深度神经网络架构，其以胶囊单元为神经元载体，胶囊的设计更符合人类神经元的原理。

胶囊网络是在卷积神经网络的基础上发展而来，由于C N N对物体之间的空间关系（spatial relationship），以及物体大幅度旋转之后的识别能力不强，胶囊网络便被提出来用以克服上述问题。

现阶段，胶囊网络仍处于初步發展阶段，伴随着训练算法不断改善，胶囊网络性能将进一步提高，其在图像识别领域的应用将逐步深化。

本次分享的最后，李博谈到对抗学习研究的一些心得与建议。她主张自信，开放心态，不拘泥于某些小的圈层，勇敢的进行自己感兴趣的研究，对自己有信念，坚持下去终会功夫不负有心人。

络绎学术关注前沿科技和为之奋斗的科研工作者们。我们希望通过持续不断分享为大家带来前沿科技和为之走过“ 弯路” 却仍然风雨兼程的科研工作者们的真实经历。

猜你喜欢