场景化思维下智能音频在媒体融合中的运用与创新

2020-10-14唐雯顾泽惠

新闻论坛 2020年4期

唐雯顾泽惠

【内容提要】在万物互联的大趋势下，智能音频也迈入全场景时代，如何利用场景化思维，思考智能音频未来的发展和运用是值得关注的问题。本文以智能音频的场景化运用为出发点，探讨在当前的媒体环境下，智能音频的新特点，并运用场景化思维分析智能音频在现实场景、虚拟场景、增强现实场景中的具体运用，以期为智能音频的未来发展提供借鉴。

【关键词】智能音频场景化媒体融合运用

近年来，随着人工智能技术在各领域应用的不断深化，智能音频市场获得广泛关注。音频搭载人工智能技术，使得音频市场从传统的、固定的单向传播向移动化、智能化、社交化等方向转变，行业内也开始了智能音频技术及其适用场景的探索，从硬件技术、内容生产到智能终端等各个方面都有了一定的创新突破。中国网络音频的发展历程可分为播客时代、移动时代和全场景时代三个阶段。从早期需要定點、固定收听的播客时代，到互联网发展下用户能够借助手机移动收听，近年来，借助智能音频技术，用户在不同场景能够自主选择个性化的收听内容，甚至能够进行社交互动。在全场景时代下，如何充分运用场景化思维深度挖掘智能音频的应用，是未来智能音频发展需要考虑的问题。

2019年6月6日，工业和信息化部经履行法定程序，已向中国电信、中国移动、中国联通、中国广电四家企业发放了5G商用牌照。②今后，随着5G技术的深入发展，智能音频的应用挖掘也将会拥有更强的技术支撑和更广阔的发展前景。

一、现今智能音频产品的特点探析

相比于传统的音频产品、广播电台，智能音频背后是人工智能、深度学习、大数据等技术的共同支撑，它使得音频内容不再只是单一的信息传播，而具备了互动交流、沉浸式体验以及生活工作服务等多方面的作用，较传统的音频产品而言也涌现出许多新的特点。

（一）声音伴随，提升服务便利性

随着移动互联网时代的到来，移动化转型成为智能音频创新发展的一个方向，新型智能音频产品力求在日常生活场景中随时随地为用户提供信息或服务，便利性大大增加。

此前，智能音频产品或服务多附着于其他智能产品之上，如将语音控制技术嵌入智能家居系统、将语音助手植入智能手机等，这一阶段的服务多是单一指令、简单控制，智能化特性未被充分挖掘。

如今，得益于人工智能技术的不断革新和人机交互技术的发展，许多独立存在的智能音频产品先后亮相，智能语音手环、车载智能语音系统和便携智能音箱等逐渐走入人们的生活，只要向这些产品发出语音指令，用户便可得到他们想要的信息或服务，不仅简化了操作流程，还能缩减用户获取信息所花费的时间，使人们的生活更便利、更智能。

（二）网络叠加，增强音频社交属性

事实上，移动互联网包含内容、社交、服务三大领域，移动互联网的发展使得内容、社交、服务三种平台的交融更加深层。于智能音频产品而言，为用户提供内容或服务或许不是其全部目标，目前也开始出现了社交化的转向。

随着网络音频的兴起，各种音频社交类软件应运而生，不同于以往的文字或图片社交软件，音频社交类软件的使用形式更加生动有趣，用户的情感表达也更真切直接。以“嗷呜”这款声音社交软件为例，用户在上传自己的声音后，系统会对声音做出智能鉴定，并为用户发放声音标签，用户可通过声音标签在线匹配认识好友。

在这类软件中，智能音频的作用显然是社交化的，音频不仅成为用户交友时的一个匹配相识方式，也是用户在后续交往中的一个交流方式。从这种意义上来说，智能音频改变了人与人连接相识的传统方式，一定程度上也推动了社会关系网络向一种更为开放、散落的形式转变。

（三）算法推荐，内容适配精准化

在大数据和算法推荐等技术背景之下，用户本位的理念得到强化，提供个性化、定制化服务成为各类产品竞相追求的目标甚至是制胜的法宝。这在智能音频领域，便体现为智能音频产品试图更多地去关注用户的实际需求，在特定场景下为用户提供个性化的信息与服务。

与早期的智能音频产品不同，当下许多智能音频产品不再仅从制作者的角度出发，去为用户提供固定化、模式化的音频内容，而更多的是从用户的角度出发，试图将用户在特定场景下的特定需求纳入产品设计之中，从而为用户提供有针对性的服务。

目前，这在应用服务类智能音频产品中更为多见，例如当用户下达语音指令后，智能运动手环可以语音播报运动数据，车载智能语音系统可以完成路线导航、调控车内温度等操作，智能音箱设备则能够播报天气、播放音乐等，以满足用户的个性化需求。

二、基于场景的智能音频运用

“场景”一词本身是一个泛空间化的概念，罗伯特·斯考伯在《即将到来的场景时代》中首次对场景概念做出辨析，他提出以移动设备、社交媒体、大数据、传感器和定位系统为代表的五种原力构成场景传播的核心技术，被称为“场景五力”。彭兰在对场景的研究中提到，场景不仅是一种空间指向，同时也包含着与特定空间和行为相关的环境特征，以及在此环境中的人的行为模式和互动模式。总体而言，场景化思维的运用是一个动态的过程，它不仅仅指现实的环境，还包括人与人、人与信息互动的情境。因此，在运用场景化思维思考智能音频的使用时，不应该仅仅局限于其现实的使用空间，还应该思考智能音频在构建虚拟场景、现实增强场景中的意义。

（一）辅助现实场景，满足日常服务需求

目前对于智能音频的开发主要集中于辅助现实场景层面，以智能音箱、车载智能系统等为代表，其构想和运用都是基于现实生活场景，运用智能音频技术为日常生活提供服务。

第一类是基于技术工具性的创新使用。这一类应用中，通常将智能音频技术作为其整体构成中的一环，借助声音信息输入的便利、直接、快速以及大数据分析等优势，提升用户的使用体验。如在音乐制作中利用智能音频技术的大数据声音采样分析，使得非专业人士也能快速掌握专业的音乐生产;或是利用智能音频的声纹识别技术，来进行有效的安全保障。此外，智能音频技术在新闻传播领域中也获得了创新性的运用，在2019年的两会报道中，记者创新性使用智能音频技术即时将语音转换成文字，极大地提升了新闻采写的工作效率。这类运用将智能音频技术与实际的生活、工作需求紧密结合，充分探索智能音频技术在实际使用中的可能性，形成优势互补。

其次是基于智能终端的开发运用。这类应用主要考量智能音频使用的环境要素，关注不同场景下智能音频终端的需求，由此进行相关的研发。如以天猫精灵、小米AI音箱为代表的智能音箱，通过对话反馈的方式，满足人们的日常服务需求;或是以“罗技”为代表，一些服务开始基于工作中的办公会议需求，推出商务智能音视频会议系统，以满足远程会议、会议记录、资料整合等多方面的需求。

（二）构建虚拟场景，增强用户互动交流

对于智能音频的开发不能只集中在对现实空间的开发应用上，在万物互联的时代下，智能音频在构建新的社交关系等方面也发挥着重要的作用。这里所强调的虚拟场景构建，更指向于人与人之间的连接，强调场景中人与人之间互动模式的呈现，从而使用户沉浸其中。即通过虚拟场景的构建，营造用户的“在场”体验。

首先从技术开发层面来说，行业内越来越意识到仅依靠终端的开发是不够的，如何运用互联网、大数据通过智能音频将人与人联系起来，从而真正促进人际问的交流互动才是进一步发展的方向。以K-radio为例，它搭建了国内第一个车载音频运营开放平台，通过定制化、个性化、主动化的用户运营，满足不同用户的收听需求，极大地提升了用户的体验;同时，目前还涌现出一批声音社交类APP，通过声音识别，为不同的声音贴上标签或是通过音频进行交友。这都是在不断探索智能音频的社交功能，加强人与人之间的新型社交联系。

其次，从内容生产层面来说，智能音频设备的发展也要求有更多适应不同场景的、垂直细分的高质量音频内容。在这样的背景下，音频内容的创新与智能设备的契合便显得尤为重要。今后，在智能音频市场化发展的趋势下，音频内容提供者也要紧跟形势变化，不断探索在不同场景下、不同语境中的音频内容表达。同时，音频内容也不能只是传统的单向陈述，应当思考音频内容在不同使用场景中的对象感、贴近性以及针对不同主体的个性化。

（三）增强现实场景应用，提供多元化体验

目前，在增强现实场景中的智能音频应用还相对较少。此类应用主要是利用音频技术以还原现场的真实音效，从而使用户获得身临其境式的体验。Bose正在研究的智能眼镜便是借助声音来增强用户对周边世界的观察。这类眼镜配有检测用户动作的传感器，并能通过蓝牙连接用户的手机以获得定位数据，从而确定用户的方位和周边信息，最终根据用户的行动方向将该方向的声音传递到用户的耳中，增强用户的沉浸感。

不过，这类智能音频产品的开发还需要解决终端的问题，只有真正研发出优质、价格适宜、易于普及的增强现实性智能音频终端，才能进一步考虑内容生产的问题，以探索如何将虚拟场景中的音频与现实的环境相结合，真正使虚拟场景与现实场景交融，最大化地方便人们的生活。

三、关于智能音频场景化运用的思考

目前，智能音频仍处于发展初期，其在各领域的应用还在探索和试错阶段，因此，在智能音频的未来发展中，以下方面还需进一步探索：

（一）技术局限仍待突破

一方面，受制于人工智能的学习能力不足，当前许多智能音频产品在学习能力上存在局限，基本只能在原本设定好的程序功能内为用户提供信息和服务，还没有做到真正的“智能化”。有分析指出，与人类学习的方式不同，人工智能模型难以将他们的经验从一套环境转移到另一套环境。因此，面对场景的转换，当前的智能音频产品还不能很好地跟随用户需求的转变，也很难满足用户在程序设定之外的需求。

另一方面，就我国的情况而言，智能音频在诸多领域的应用中，交互性不足问题较为明显。无论是传统的广播电台，还是新兴的移动音频平台或有声读物APP，大多还处于追求为用户提供丰富的音频内容或多样的音频效果的传受阶段，用户的自主发挥空间十分有限。然而，国际上一些传统广播电台早已将目光投向了智能音频领域：美国国家公共广播电臺NPR与亚马逊、谷歌、苹果等公司合作，成为其智能语音的新闻默认提供商，用户只需连接设备，便可获取实时更新的个性资讯;美国有线电视新闻网CNN也搭载亚马逊Echo设备，智能化播放新闻及娱乐信息，满足用户自主收听需求，随时随地知晓全球新闻。这都是可供国内各大音频平台学习借鉴的经验，争取为用户带来更好的场景体验。

最后，随着智能音频的深入发展，未来的探索在克服“鸡尾酒效应”、提高人声分离技术以及克服无线传输音质不稳定等方面也需要更多的努力。

（二）隐私保障不容忽视

2019年是5G元年，5G具有更加丰富和多样化的场景，它不仅仅是高带宽、大流量，它还是“万物互联”，会有更多种类型设备的接入。而对于安全问题，新的应用场景将带来新的挑战，有关究竟是“万物互联”还是“万物泄露”的话题讨论热度一直居高不下。

在智能音频领域，隐私泄露一直是人们广泛关注的问题，尤其是在智能音箱的使用中。作为一款能够收集用户语音和位置信息的智能设备，信息搜集和处理环节都可能发生隐私泄露。虽然就目前的设备设置来说，大多数智能音箱设备在开始录制之前，都必须由用户说出特定的唤醒词来唤醒设备，但实际应用情况却不尽然。2019年7月，谷歌智能助理就被指出有监听用户隐私的嫌疑。据VRT NWS发布的报告显示，虽然谷歌在用户说“嘿，谷歌”或“好的，谷歌”之类的短语之前或之后不会进行录制，但这些设备有时会误听其他单词或短语并录制他们本不应收听的对话，其中一些谈话最终还会被公司雇用的“语言专家”转录。此前亚马逊也曾被指出会有专门人士来审查和转录其Echo设备收集的音频。

在未来智能音频的发展中，智能生活与个人隐私的边界不应被忽视或模糊处理，如何保护智能音频设备自身的安全，如何防范智能音频设备窃取、泄露用户数据，都是亟待解决的问题。

（三）行业标准亟需规范

近年来，“智能音频+社交”市场愈发火爆。据《2019年中国网络视听发展研究报告》显示，截至2018年12月底，我国网络音频用户数量突破3亿，其中新一线城市的网民对网络音频的使用率最高，达到44.5%。

各大应用商店中的声音社交APP频频“上新”，为人们提供了一个情感寄托的渠道，但有些应用软件在实际运行中却偏离了正确轨道。例如多数声音社交APP并未对用户的下载年龄做出限制，注册登录方式也很随意，几乎没有任何对未成年人的限制及保护措施。低俗、色情、诈骗等不良内容在一些应用软件的文字介绍或内部聊天室内也较为常见，行业乱象频出。

如今，“社群陪伴+音频互动”式的声音社交成为新的热点，行业规范也需尽快跟进。不仅要对声音社交软件内良莠不齐的内容进行监管和处理，加快制定统一的行业内容标准、维护声音社交网络空间的风清气正也尤为重要。今后，随着智能语音识别技术的发展，各大软件平台也可以和人工智能语音企业合作，尝试缓解音频内容监管审核难度大、效果差的问题。

四、结语

总体而言，目前有关智能音频的场景化探索仍集中于现实场景中的终端普及阶段，发展状态还不成熟，也面临诸多方面的考验，但智能音频的多场景运用可以说是未来发展的重要趋势。

智能音频的发展终究是要为人服务的。因此，在其探索和创新的过程中要充分运用场景化思维，思考不同场景中用户的具体需求，也不能只看到现实场景的层面，还应注意到虚拟场景和增强现实场景中智能音频的作用。此外，动态地看待场景的概念也很有必要。不仅要看到用户“此时”的需求，更要看到用户“过去”和“未来”的需求，全面考虑用户行为的情境。

任何事物的发展都经历过从野蛮生长到逐渐规范的过程。智能音频在发展中面临的隐私保障、行业规范等问题绝不容轻视，只有当创新发展与持续改善形成合力，智能音频的场景化运用才能朝着更好的方向发展。