浅谈内容画像在全媒体内容库中的作用

2018-11-13苗平

数字传媒研究 2018年7期

苗平

长春广播电视台吉林省长春市 130061

1 全媒体内容服务的新需求

全媒体内容库是融合媒体平台的重要组成部分，通过全媒体内容库可实现跨媒体的内容资源管理，整合全台在线全媒体内容资源。通过构建全媒体内容库，还可以实现全台内容的统一检索、共享和快速调用，真正激活台内现有的媒资及各种业务系统内的媒体内容资源，为全媒体融合生产、全媒体指挥策划和内容运营提供内容支撑。

全媒体内容库面向多源多态海量的内容汇聚，通过人工方式已经不可能完成打标签、初级编目等工作，需要采用大数据、人工智能技术将海量内容资源自动进行内容分析、挖掘、知识抽取，并将内容充分使用到各业务的各环节，使得内容库的价值得到进一步提升。

在为用户提供的内容服务上，需要提供更加丰富的内容查找手段，不仅仅是分类查找、全文搜索。在用户有明确目的查找内容的时候，要能使用户随时随地的通过各种搜索手段获得准确的内容。在用户没有明确目标的时候，达到“想你所想”的内容响应，在服务形式上化被动为主动，将内容与用户需求相结合，为用户提供精准、贴合的内容推荐的使用体验。

全媒体时代，广电除了传统的电视传播渠道，在新媒体领域的微博、微信、头条、移动应用等发布平台也开辟了大量的发布渠道，形成媒体传播矩阵。需要从业人员能够将这些信息转化为知识，建设知识库，包括：泛栏目库（传统媒体栏目、新媒体栏目）、人物库等，基于内部数据及互联网相关数据，挖掘媒体知识信息，构建完善的媒体知识体系，为内容策划、内容生产、内容发布提供专业的知识支撑。

2 内容画像的设计与应用

以大数据、人工智能技术为支撑，进行内容服务的创新，通过内容标签进行内容的深度画像，基于内容画像实现多维度搜索、内容推荐、探索式内容分析及挖掘、知识图谱等，为用户提供更好的内容服务体验，如图1所示。

图1 内容标签基本框架

2.1 基于内容标签的内容画像

通过标签可以对海量内容进行整理、管理和发现。所谓标签，是一些概括性的词汇或者短语，用来描述某一内容。与“类别”不同的是，一个内容往往属于有限的几个类别，但却可以拥有许多个标签。同时，类别定义相对固定，数量有限，而标签则是无上限扩展、自由添加、有时效的。标签显著作用有如下三方面。

通过标签进行内容画像，让系统、用户可以更多维度、更深的理解内容，标签抽象出的内容更具有表意性、更为显著的特点，进行特征抽取，形成内容画像。

可以解决“发现”的需求，海量内容中用户要找到自己需要的内容，标签是最可靠的形式，对于内容生产者而言，标签是很有效的内容整理、组织和管理的手段。

标签有助于挖掘内容数据价值，通过技术挖掘得到用户标签、评价的标签、内容的标签等，一边进行智能推荐提升体验，另一边则可进行探索式内容挖掘。

2.2 多维度搜索

对音视图文等媒体资源进行智能化信息提取和标引，基于内容画像进行快速精准的搜索，提高对海量媒体内容的查找效率和质量，包括分类检索、标签检索、关联检索、组合检索、全文检索、递进式检索、语音检索、图片检索、智能排序等功能。

2.2.1 分类检索

系统根据内容的不同来源及文件类型进行分类检索展现，系统根据不同来源或不同文件类型的分类体系进行导航，在进行搜索时可先选择某一具体的来源分类再进行搜索，以缩小搜索范围，利用分类搜索可以通过逐级展开分类树，展现每一个类别下所包含的内容。

2.2.2 标签检索

内容在入库时，系统会自动对内容进行标签抽取，作为该内容的特征。系统会对内容库中的内容标签进行聚合，统计常用的标签并呈现在搜索界面中。用户在进行搜索时，可选择某一个或几个标签进行内容的筛选。

2.2.3 关联检索

实现检索结果页面自动显示相关联内容，例如相同关键词、同义词以及具有其他关联属性的内容，便于使用人员查询时更有针对性的挑选采用。

2.2.4 组合检索

系统提供多个条件的组合检索功能，能够根据用户选择的搜索条件处理搜索请求并快速返回搜索结果。

2.2.5 全文检索

系统提供全文检索功能，可根据输入的关键词进行全文模糊检索查询，包含视音频的分层全文信息匹配检索以及文本文档等全文匹配检索等。当输入多个关键词进行查询时，根据关键词关联度进行交集查询，当关键词数量较多即相关性低时变为并集查询。

2.2.6 递进式检索

递进式查询是指用户在全文检索结果基础上输入更准确的检索关键词，系统在提供检索结果的同时，根据检索结果内容显示相关联信息，用户点击相应词汇，搜索引擎会结合原有搜索词和用户点击的词语中，重新构造查询语句，通过二次搜索自动查询更精细的结果信息。

2.2.7 语音检索

实现将电视和广播节目中的语音数据智能识别为可读的文本文字，系统中内置语音识别功能和语音检索功能，素材在进入系统时调用语音识别功能模块进行语音和字幕识别，识别后的视频在语音识别视频列表中可以进行查看。用户在关键字查询框中输入需要查询的语音内容，即可查询到视频中包含此条语音内容的视频及所在视频中的语音条目信息。

2.2.8 图片检索

在系统页面中上传图片或视频片段，可根据图片进行相似图片的搜索，可以搜索到相似图片以及出现过类似图片的视频。可通过音频或者视频片段搜索包含此片段的完整视频文件。

2.2.9 智能排序

系统不仅提供根据播放量、下载量、收藏量、入库时间等排序方式显示检索结果，同时还提供智能排序方式，智能排序方式可按客户搜索习惯以及人员属性等进行检索内容的排序，将用户更感兴趣的内容展现在最前，方便客户检索使用，提升用户体验。

2.3 内容推荐

全媒体内容库中，内容推荐的主要目的是帮助业务人员寻找他们需要的文章、视频、音频等内容去进行内容生产。推荐引擎对用户的信息、历史行为进行分析，建立模型，最后给用户推荐需要的内容。

内容推荐的主要业务场景包括搜索推荐、热点推荐、基于标签的内容推荐、基于使用习惯的内容推荐四类。

搜索推荐功能是在用户检索时为用户提供个性化、精准化的信息推荐，系统根据用户检索的关键词、当前热点事件、相关内容以及用户日常检索习惯帮助用户获取其感兴趣的内容信息，系统不仅要根据用户的检索关键词分析关联内容，还需根据近期搜索热点、用户的业务侧重点以及用户操作日志信息分析出用户真正需要的内容信息。

热点推荐是根据平台汇聚的互联网内容，向用户提供最新热点话题、热点事件。可以通过选择不同领域，包括：时政、经济、体育、民生、影视等。

基于标签的内容推荐是通过内容标签、用户标签，对内容、用户进行基于标签的推荐，实现内容的相关推荐，用户的内容推荐等。

基于使用习惯的内容推荐是通过分析用户的行为数据，以及用户所工作栏目的标签，为每一个业务使用者进行用户画像。结合热点事件和关联内容信息，经过分析，实现个性化的内容推荐。

2.4 探索式内容分析和挖掘

可视化的自助式内容探索工具，辅助用户通过可视化的方式去分析、挖掘内容，产出对内容生产有价值的洞察。整个内容挖掘“可视化”的过程，用户根据需求简单进行拖拽式、交互式操作即可完成，多种展示形式，秒级响应。让用户能够以最直观的方式，发现一些内容背后潜在的相关性。

内容分布分析工具，通过内容的属性、标签等，用户可以通过工具自助的进行内容分析、统计，提供多种可视化组件，使用户以最直观的方式了解内容库中的内容。

热点内容挖掘工具，通过可视化工具可以直观的发现当前热点，再通过热点进行下钻，分析、挖掘与热点相关的内容。可以通过选择不同领域，包括：时政、经济、体育、民生、影视等，更加专注的挖掘热点内容。如图2所示。

图2 海量内容示意图

通过对海量内容的智能挖掘关联，自动聚合生成事件专题、人物专题、自定义专题等。通过可视化的对内容聚类分析结果的呈现，帮助用户挖掘潜在的内容，为选题决策、内容生产提供智能支持。

词云分析工具，以所选范围内的内容相关的标签数据为文分析基础，以词云的方式对标签数据进行展示，用最直观的方式为业务人员展示，舆情关键词、新闻关键词、评论关键词等。

情感分析工具，通过对评论、舆情内容的智能分析，利用先进的深度学习技术，实现内容的精准挖掘，针对媒体领域特点进行情感正负面判断，提取与用户相关的高价值信息。

2.5 知识图谱

建设泛栏目库、人物库的知识库，通过构建栏目库与人物库的知识图谱，形成关系网络，为栏目与栏目、栏目与人、人与人，建立关联关系，辅助用户分析内容及业务决策。

在内容策划阶段，通过栏目知识，以及栏目与栏目的关系，业务人员可以通过结合栏目的知识信息、当前热点，综合确定要生产内容的主题，使生产的内容更具竞争力。

在内容生产阶段，通过栏目库与人物库的知识图谱，可以辅助决策选择更合适的嘉宾、编导、编辑，以及在内容剪辑阶段，为编辑人员推荐相关的素材内容。

在内容发布阶段，生产完成的内容结合栏目库及栏目知识图谱，辅助用户进行发布决策，使发布的内容更贴合栏目的主题。

3 全媒体内容库构建的核心模块

全媒体内容库致力于打造出大容量、多种类、可学习、可交互的智能化内容管理引擎，通过全媒体内容服务平台，可以充分吸收多种渠道海量汇聚的内容，经过内容整理后，实现内容的精准查询、关联检索、智能推荐等。同时，还可以根据对自有内容的数据挖掘，通过建模，自动形成主题事件库、知识库等面向业务的辅助决策、辅助生产、辅助发布的内容池。核心模块包括内容处理引擎、内容挖掘引擎、内容推荐引擎、媒体知识库。如图3所示。

图3 全媒体内容库的核心模块图

3.1 内容处理引擎

针对不同类型、不同来源的内容，处理引擎对内容进行自动化的处理和结构化。内容处理引擎能力包括：（1）内容筛选，通过分析内容元数据、文本信息，以及系统配置信息，设置内容的重要级别、保密级别；（2）内容过滤，内容的重复过滤、垃圾信息过滤、广告过滤。同时对视音频素材也需要具有过滤功能，对重复上传的视音频避免重复入库；（3）内容审核，基于敏感词及特征库，过滤检测内容的文本、图片及视频。自动过滤汇聚素材中的敏感内容，并将包含敏感词的素材放入待发布区，由人工二次处理；（4）字幕检测与识别，从视频中检测到是否有字幕。字幕识别，对有字幕的视频把字幕转换成文字；（5）人脸检测，检测是否是某个特定人的脸；（6）检测是否含有人脸；（7）视频标签提取，识别视频中的场景、人物、风景、建筑、生活物品等，支持不同维度层次的图像语义信息提取，丰富内容标签；（8）多格式转换，可将多种音视图文素材转换为标准的制作格式、码率，供电视新闻生产网或新媒体调用。

3.2 内容挖掘引擎

通过人工智能技术对入库的海量内容的属性、文本、标签等进行内容挖掘，包括：分类、聚类、自动关联、实体名提取、情感分析、标签提取等。

分类：通过分析内容元数据、文本信息、内容标签，以及分类配置信息，自动将入库内容进行分类。

聚类：根据编目信息、自动提取的标签信息，支持文件属性自动辨别分类，元数据分析分类，元数据自动关联，话题内容相似性聚类，可通过自动聚类技术自动聚焦一段时间内网上热点信息，可自定义需进行自动聚类运算的素材来源和类别。

自动关联：新闻稿件相关内容自动关联，自动关联相关、相似的多媒体素材，形成新闻素材集合，便于编辑制作人员有针对性的挑选采用，可自定义需进行自动关联的来源，可灵活配置自动关联分析灵敏度。

实体名提取：对内容进行领域内的实体名提取，包括：栏目名、节目名、主演、主持、导演等领域内实体名。

情感分析：针对舆情、评论，进行情感分析。

标签提取：通过分析内容的元数据及文本信息，自动提取内容的关键词，形成内容的标签。

3.3 内容推荐引擎

内容推荐引擎是一系列的推荐算法的实现及其组合，使用多种推荐算法集成在一个组模块当中，可以使用不同的推荐算法组合在一起为一种场景生成推荐结果，或者在业务发展的不同时候使用不同的推荐算法。内容推荐引擎综合利用用户的行为、属性，内容的属性、标签，以及用户之间的关系等，挖掘用户的偏好和需求，主动向用户推荐其感兴趣或者需要的内容。

3.4 媒体知识库

知识库是对各类知识信息的保存，以及对知识图谱的构建、管理。知识图谱表达了各类实体、概念及其之间的各种关系，形成知识的可视化表示。通过知识库构建知识图谱，把所有不同种类的知识连接在一起，从而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识信息内容包括泛栏目库、人物库。

泛栏目库。泛栏目的类型包括：传统媒体的栏目、影视剧、新媒体栏目等。保存的信息包括：泛栏目的栏目名、导演、主演、主持、制片、类型、发行年份、简介等信息。

人物库。人物类型包括：导演、演员、主持、制片人、编导、记者等。保存的信息包括：姓名、性别、出生年月、简介等信息。

通过构建栏目库与人物库的知识图谱，形成关系网络，为栏目与栏目、栏目与人、人与人，建立关联关系，辅助用户分析内容及业务决策。

总结

以全媒体内容库为核心的媒体融合业务，对内容保存和使用的需求不再只是以素材和节目为核心，也不再以人工编目和结构化的数据保存为主要手段，而是扩展到面向全媒体业务，涵盖素材、节目、电视稿件、两微内容、H5页面等多种内容形态。同时，对内容的编目也以自动化数据提取、智能编目、非结构化的原始数据保存为主要手段，同时重视对原始内容数据的持续挖掘。如图4所示。

图4 全媒体核心处理流程图

以大数据、人工智能技术为基础，重新梳理媒体内容服务的各个环节。形成基于标签的内容画像，充分发挥内容的最大价值。并结合对使用者操作习惯的大数据分析，实现内容的智能推荐和精准查找。最终实现全台内容包括媒资、制作，以及电视媒体、广播媒体、新媒体等多种业务体系内容的统一检索和使用，实现为融合媒体的各种业务的内容支撑。