视频全字幕的制作与提取实践探究

2022-11-14颜清波

海峡科技与产业 2022年4期

颜清波任鹏

常熟理工学院，江苏常熟 215500

0 引言

全字幕是指与视频中语音完全同步对应的文本信息，是对视频中的对话、讲述、解说等语音内容以文字的形式展现的，主要是帮助观众更好地理解视频所要表达的内容。尤其是在教学类视频中，全字幕发挥着重要的作用，可以避免因教学者普通话不标准、字词同音的问题；避免教学内容有专业名词不易理解，避免视频中其他声音的干扰；还能解决部分特殊的需求，比如听力不好或授课者与观众所掌握的语种不同等问题。但传统的全字幕添加是一项流程复杂且耗时的工作。一般视频的全字幕文字量少则几百，多则数万字，利用视频剪辑软件的文字添加工具一字一句添加是不现实的。传统的添加方法一般有两种：一是软件本身自带的批量添加功能，二是利用专门的字幕软件或插件来添加。

1 基于语音识别的全字幕制作

随着科技的进步，AI技术的不断发展，人工智能语音识别技术已能快速识别视频中的语音并生成文字字幕，而且中文识别的正确率很高，利用语音识别技术制作全字幕已成为新的全字幕制作方式。

1.1 语音识别字幕的几种主要途径

语音字幕软件。科大讯飞是国内一家专业从事智能语音研究的科技公司，其智能语音核心技术达到世界先进水平。讯飞听见字幕是该公司的一款AI视频字幕制作软件。该软件最早出现于2019年，通过导入视频文件，自动生成带时间码的字幕。该软件功能强大，识别准确率高，时间码匹配准确，支持生成SRT/ASS/XML等多格式字幕文件，可同时生成中英双语字幕。缺点是属于第三方软件，需要另外安装客户端，添加字幕时需要上传视频文件，而且是一款收费软件。

视频编辑软件。2021年年初，国产视频编辑软件剪映推出了专业版Windows版本，该版本内嵌AI功能，可以智能识别语音自动生成字幕，该功能识别快速精准，时间匹配准确，而且还是免费的。剪映的这个功能在视频编辑软件中一度处于领先地位。而Premiere、FinalCutPro等专业视频编辑软件在当时都没有这项功能。很多视频工作者在用Premiere、FinalCutPro编辑好视频后再通过剪映来为自己的作品添加全字幕。也或者在剪映中生成字幕后通过第三方工具转成SRT文件进行添加。也可以在Premiere、FinalCutPro中导出视频的语音文件，通过剪映识别后生成带字幕的蓝绿视频，再导入Premiere、FinalCutPro中进行抠像添加字幕。为了更好地利用剪映的语音识别功能，在Premiere中更是出现了相关的脚本插件如Q_Chameleon，使得在剪映中识别到的字幕可以直接以SRT的格式导入Premiere中。直到2021年年底，2022版的Premiere终于也增加了语音转文本功能。2022年2月，Premiere进一步完善其语音转文本功能，使用前只需下载语言包，便可在无互联网连接的情况下创建转录文本。

1.2 主流视频编辑软件语音识别功能对比

剪映和Premiere是两款定位不同的视频编辑软件，剪映定位于视频编辑爱好者，Premiere则倾向于专业用户。剪映在进行语音识别添加全字幕时操作简单，只需把视频文件添加到时间线，然后选择“文本”—“智能字幕”，稍作等待，软件就自动在时间线上添加好相应的字幕。Premiere则将整个过程分为语音识别和创建字幕两个步骤。将视频文件添加到时间线，在“文本和图形”窗口中选择“文本”—“字幕”—“转录序列”，软件进行识别后在“转录文本”中显示识别后的文本，核对无误后点击“创建说明性字幕”进行相关设置，最后生成字幕。两款软件目前使用者较多，语音识别功能强大，非常具有代表性。接下来就对比一下两款软件的语音识别情况。

（1）识别速度。在同一台电脑，同种网络速度下，以一段近10 min的授课视频为例进行测试，剪映用时40 s左右，Premiere用时近2 min。可以看出，剪映的识别速度要优于Premiere。

（2）准确率。同一段授课视频近2300个文字，其中剪映识别错误21个，Premiere识别错误27个。两款软件针对这段视频的识别准确率在99%左右，表现非常优秀。

（3）时间码匹配程度。经测试，两款软件在字幕出现的时间上都做得很优秀，软件匹配好后都无须再做这方面的修改。

（4）字幕修改的便捷程度。在剪映中，软件在识别语音后自动把字幕添加到时间线上，检查、修改文字需要在时间线上过一遍，而且单条字幕的长度由软件自定，后期修改会比较烦琐。Premiere在识别后会在“转录文本”标签页显示对应的全部文本内容，软件还提供查找、替换功能，视频制作者可在该窗口中方便地修改识别错误的文字。在创建字幕时，还有单条字幕的最大字符数、字符间隔、行数等设置，可以高效地制作出符合意图的字幕。两款软件在字幕的字体、样式修改上都很方便。值得一提的是，Premiere在语音识别及创建字幕时保留了标点符号，我们知道，字幕一般不含标点，所以使用Premiere添加字幕时需人工去除标点。

（5）其他区别。比如在软件的获得方面，剪映是免费的，Premiere是收费的；剪映只支持中文，而Premiere支持包含中文、英文在内的13种语言的语音识别；剪映每次识别时都需要联网，而Premiere在首次使用时，需通过联网下载所需语言包，之后即可脱机进行语音识别；剪映识别整个时间线的视频语音，而Premiere可自定义语音识别的范围。

以上是两款软件在语音识别添加字幕方面的主要区别。正如两者的软件定位一样，剪映没有复杂的设置，相对友好一些，Premiere则显得更专业一些。但两者各有特色，都能很好地根据视频语音来添加字幕，视频制作者可以根据实际情况来选择相应的工具。

2 基于语音识别的字幕提取

2.1 视频字幕提取的意义

视频主要依靠画面和声音向观看者传递信息。全字幕属于画面范畴，对话、讲述、解说等语音内容属于声音范畴，全字幕的内容也即语音内容。本文所讲的字幕提取主要指把视频中的语音转换成独立于视频的文本形式。虽然全字幕能反映出语音的具体内容，但把语音转换成单独的文本依然有其现实意义。

（1）便于审核。随着网络的日益发达，视频传播越来越快速、便捷，网络上会出现一些有悖国家法律法规、影响国家利益和形象、不符合社会道德标准的视频。因此，对于视频内容的审核和监管就显得尤为重要。目前审核方式主要有人工审核和智能审核系统两种。人工方式主要依靠人力、抽取完整视频或片断进行浏览审核。智能审核系统一般按一定的间隔抽取帧画面进行分析。人工审核费时费力，一般适用于视频数量不多的情况或者作为智能审核系统的一个补充。智能审核系统能够批量审核，但成本较高，一般用于专门机构或网络平台。智能语音提取字幕能够把视频内容转换成文本内容，把视频审核转变为电子文本审核，通过对预设违禁词的排查过滤出有问题的视频，大大提高了小规模视频审核的效率。

（2）助力学习。传播知识是视频的一大功能。相对于单一的文字、图片或声音类的教学，视频含有的信息量很大，最有利于学习者去理解知识。然后视频也有其弱点，对于内容的可视化不够便捷，很多时候学习者对同一内容会进行复习或多次学习，而一遍遍地把视频从头看到尾比较耗费时间。如果在初次学习后同时获得一份视频内容的电子文本，对学习的知识进行系统化提炼整理，不仅有利于理解和掌握学习内容，也有利于以后进行复习巩固知识。

（3）利于检索。对于一个视频，我们一般只能从文件名或视频开头的标题来获知或推测其主要内容。而这些信息对于负责视频归档、检索的管理者来说是远远不够的，但每个视频都浏览一遍也是不现实的。在不能掌握视频真正内容的前提下，归档和检索工作只能是粗略的、不精准的，后期必将影响查阅的效率。通过对视频语音内容的提取，形成一份视频主要内容的简介文档，既有利于精准归档，也大大提高了检索效率。

（4）便于理解。网上有许多优秀的英文教学视频、讲座等，也有一些优秀的英文电影，这些英文视频有时没有中文字幕，有的甚至连英文字幕都没有。如果没有过硬的英文本领，就不能很好地理解这些优秀的学习资料。而现在，通过对视频语音的识别，生成英文的电子文本，借助百度翻译、有道词典等成熟的翻译工具，即使是没有英文基础的人也能大致了解英文视频的内容，最大限度地消除学习中的语言障碍。

（5）其他作用。新闻工作者一般会在会议、活动的现场架设摄像机或摆放录音设备，事后通过音视频资料的回放来整理稿件，这是件非常耗时的工作。智能语音识别能在几分钟之内就能形成一份会议、活动全部内容的文档，新闻工作者可以快速地根据该文档整理成一篇新闻稿。对于失聪人员来说，没有字幕的视频是不友好的，很少有视频能做到只看画面不听声音或不看字幕就能理解内容，有一份相应的内容文本辅助就会给失聪人员提供不少便利。

2.2 基于智能语音识别的字幕提取方法

科大讯飞不仅有语音转字幕的产品，也有如讯飞听见、听见智能会议系统这类语音转文本的产品，用户能借助产品很好地完成文本转换任务。讯飞听见在使用时类似于讯飞听见字幕，需要把音视频上传至其服务器，进行相关转换设置后进行识别转换，操作简单。但因为要把音视频上传至网上，如果是文件较大，就需要长时间的等待，而且资料存在泄密隐患。另外，作为商用产品在提供服务的同时也是需要收费的。讯飞听见智能会议系统主要适用于办公会议、大型发布会、课程培训、电视节目直播等对语音转写、翻译的实时性和准确率要求较高的场景。产品有单机版、服务器版和私有云版。

剪映软件本身没有语音转文本的功能，推荐使用剪映字幕转SRT工具：JianyingSRT-1.8.0。使用时先通过剪映识别视频语音，生成字幕。然后打开JianyingSRT-1.8.0，在“设置”选项卡中勾选“同时导出普通TXT文本”，在“字幕”选项卡中单击“Test”选择需要导出的视频文件，然后单击“执行”即可。除了能生成默认的SRT文件外，同时生成一份TXT文本。剪映的局限是只支持中文语音，另外生成的是不含标点符号且按字幕分行规则的一行行文本。

最新的Premiere2022软件中包含了语音转文本功能。同样也是先进行语音识别，接着在“转录文本”中选择窗口右上角“…”—“导出到文本文件”即可。Premiere的特点是支持多种语言语音的转换，生成的文本不按字幕规则分行，且包含标点符号。

3 结语

先进的智能语音识别技术给视频全字幕添加工作带来了变革，使视频工作者从烦琐的字幕添加工作中解脱出来，让全字幕成为视频作品的标配。同时，通过智能语音识别，把视频内容提炼成文本，让我们能更好地管理和使用视频，更深层次地挖掘视频的价值。了解目前主流的几种智能语音添加字幕及转文本工具，知道各工具之间的差异，有利于我们选择合适的工具高效地完成工作。