AI语音技术，行善还是作恶

2019-09-10

科学大观园 2019年13期

需要有一部明确的法律来规范包括语音、肖像等在内的AI新产品和应用，使其只能向善行善，而非向恶行恶。

AI语音技术是AI的一个分支，随着AI技术的发展，AI语音技术也在突飞猛进换代升级。现在，科大讯飞、搜狗等科技公司相继发布了语音合成技术的应用。通过AI手段，用户可以一秒变声为社会名人或者其他想要模仿的声音。

AI的这种音色迁移技术可称为变声技术，可以将任何人的声音转换成特定人的声音（Any-to-One）。与国内的IT公司比较起来，搜狗公司的AI变声功能已经达到实用的阶段。比起AI之前的语音服务，如导航、智能音箱、问题解读等，变声技术是AI语音技术的重要升级，如果说之前的AI语音服务还在追求以什么样的语音，以及如何使AI的语音更像人的声调和音色为用户和公众提供更好的服务，那么现在的AI变声技术则进一步扩大了AI的应用范围，既有可能让AI語音更好地为公众服务，也有可能让AI语音步入歧途，成为诈骗的工具。前者是向善和行善，后者是从恶和行恶。

AI的变声技术是一种逼真的语音合成技术，它的基础是神经网络和机器学习。神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理，从大量样本数据中总结出共同特征，再通过机器学习模拟特定人的声音，达到以假乱真的效果。显然，这样的变音技术有很多用武之地，凡是可以采用语音或有声服务的地方，都可能获得这类服务和应用，如语音交互、有声读物、新媒体、智能客服、大众娱乐等。不过，AI变声技术的短板也是显著的，如果有人利用这种技术向任何特定的人打电话以扮演其亲人、朋友、同事、上级的声音，就会让人难以辨别真假。不过，与AI变声技术相似的另一种AI语音技术似乎向善的成分大一些，这就是“讲话到面孔”技术，也可称为“闻声识人”技术。通过深度学习，这种智能软件仅仅通过听一个人的声音就可以画出（显示）其相貌，而且八九不离十，但是，现在这种软件还不成熟。“讲话到面孔”的AI语音技术完全可以应用到刑事鉴识中，可以与较早的模拟画像技术一道成为刑事鉴识的补充技术。

无论是AI变声技术，还是“讲话到面孔”的AI语音（闻声识人）技术，都是AI语音技术的升级。技术是中立的，关键在于如何使用这类技术。在这类技术应用于社会生活和工作之前，制定对其严格管理的措施极为紧迫和必须。

2019年4月，全国人大常委会审议的《民法典人格权编（草案）》里加了一条规定：任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。同样，如果AI语音技术发展了，也应当加上不得以信息技术手段伪造的方式侵害他人的声音权，同时要单独在人工智能立法中涉及AI合成不得侵犯他人的肖像权、声音权等。任何未经授权的合成肖像、合成音频均属于侵权违法行为。

尽管如此，还是需要有一部明确的法律来规范包括语音、肖像等在内的AI新产品和应用，使其只能向善行善，而非向恶行恶。

◎ 撰文|张田勘

◎ 来源|北京青年报