APP下载

舆情系统的架构实践

2020-01-11百分点大数据技术团队

中国信息化周报 2020年50期
关键词:舆情标签规则

百分点大数据技术团队

通过分布式采集系统,保证数据全面性;通过数据流处理平台,保证数据处理的及时性和稳定性;通过全文检索数仓,保证数据可以方便的被业务检索应用。而舆情监测的价值,不仅体现在数据处理的全面、及时上,更体现在数据细粒度的分析和挖掘上,每一条流进系统的数据,分析的结果我们都可以通过标签来标识,在舆情标签体系的设计流程中,我们对舆情数据指标划分了不同的层次,在数据流动的不同环节,产出不同类别的数据标签。

数据流转和计算过程

数据流转和计算的基本过程可以简单地分为:两个计算中心、一个计算引擎、两个规则干预点。

Flink 实时流计算中心:数据进入 Flink 集群, 经过 ETL 处理,数据标准化之后,进行 L1 通用指标的计算,如相似度标签计算、行业分类、通用情感计算等,数据计算完成即入库,前端数据可检索呈现。

分布式计算调度中心:进入数据仓库的数据,通过定制化计算调度中心,将数据刷新到客户存储引擎,数据在此环节按照专题做拆分,同时根据业务配置的干预规则,计算 L2 定制化标签,如定制化细粒度情感标签、客户产品类目标记、文本重要度、文本相关度标签等。

指标计算引擎:指标计算引擎是独立于数据流的一套计算平台,对外提供 REST 和 gRPC 接口,供计算中心调用;计算引擎封装了核心的指标计算算法,一般分为两类。第一是规则类:基于规则引擎(某些场景,我们使用了基于 Java 的 DROOLS 业务规则引擎框架)的逻辑规则,如网站黑名单过滤、媒体来源归一、通用字段表转化等,我们提供实时的规则编辑、部署、上线功能,让规则的干预更及时。第二是模型类:基于 NLP 模型算法的计算规则,如:基于 TF-IDF 的文本关键词提取算法,基于 TextRank 的关键词短语和文本摘要提取,基于 Bi-LSTM + Attention 模型的文本分类算法,基于 BERT 及其衍生算法的情感判定算法等。

规则干预点:信息挖掘算法应该通过特定输入,能够增量迭代、不断提升文本计算的效果,这里主要分为业务规则和行为数据:

业务规则:第一种为通用规则,比如定期增量更新的舆情标准媒体库,定期更新的网站媒体 Alex 排名,定期更新的网站采集黑白名单等;第二种为分析师知识库,一些规则往往是随着业务的沉淀、分析师累积,不断迭代和丰富,如行业类目库、数据清洗规则等。

行為数据:客户行为是我们宝贵的反馈输入,通过分析客户对于数据的判别行为,能帮助我们迭代优化分析效果和准确度,客户对数据的收藏和屏蔽,往往能反映数据对客户的价值度和相关度,我们基于此不断迭代优化 L2 标签计算的模型效果。用户的浏览和阅读行为,也能反映出客户的信息关注点,我们基于此不断调优数据配置的合理性和重要度计算标准,尤其随着深度迁移学习的发展和应用,这种基于小量反馈的模型迭代往往能快速提升文本模型的研判效果。

AI 技术赋能信息挖掘

基于互联网公开信息的舆情分析,重点针对的就是非结构化的自然语言文本,而经过多年的舆情技术架构演进,传统的单纯追求信息采集快、覆盖全、检索准的定量分析,已经不能满足企业或政府舆情分析的需求,针对舆情信息的智能化分析越来越成为舆情行业竞争的核心,舆情分析可以说是最适合 NLP(自然语言处理)技术落地和实践的产业阵地。

(1)技术发展路线

早在 2015 年,我们就已经开始探索应用 NLP 技术在舆情分析领域的落地场景,我们通过逻辑回归处理文章的分类。

2017年,结合舆情业务的特点,通过基于依存句法及词性模板的篇章级情感计算,依据可扩充的句法规则及敏感词库进行特定的分析,支持文本中针对品牌或关注主体的情感判定。2019年上半年,随着以 BERT 为代表的迁移学习诞生,并且支持在下游进行 Fine-Tune,通过较小的训练数据集,即可得到不错的效果,解决了舆情训练样本不足、模型效果难以提升的难题。2019年下半年,从舆情的业务问题入手,通过优化提取更加精准、贴近业务的情感摘要作为模型输入,使用定制化模型以及多模型组合方案,联合对数据进行情感打标。融合基于特定实体(ATSA,aspect -term sentiment analysis)的负面信息研判,使用 Bert-Sentence Pair 的训练方式,将摘要文本、实体联合输入,进行实体的情感倾向性判定,在定点客户上取得不错的成绩,最后的F1值能达到0.95。

除了在舆情情感判定场景,我们在舆情热词提取、事件聚类、多维标签标注、文本相似度计算等方面也在不断迭代,都取得了不错的成果。

(2)AI 运营平台化

尽管设计了一套能反馈干预的闭环标签计算流程,但随着客户和数据量的增长,不同行业和不同客户的业务规则越来越难以统一,定制化干预的计算需求越来越多,模型训练、部署的任务就不能仅局限在研发人员身上,因此为了提升业务定制化干预的效率,我们设计和实现了一套打通了业务闭环,集数据标注、模型训练、模型自动化部署的 AI  模型训练平台,将相关部门协同联动起来,大大提升了不同客户效果迭代的效率。

平台上层,提供了一套标准的可视化操作界面;平台底层,设计了一套 AI 模型训练的 CI\CD 流程。自助训练,支持TensorFlow 和PyTorch 框架,方便研发人员对底层模型算法的灵活扩充,该流程实现了从算法、数据到模型的过程。自动部署,基于Kubernetes 和Docker 容器云平台,打通了模型镜像到服务发布的全流程,提供模型容器编排、接口映射、服务发布、版本管理等功能。

2020年7月份,AI运营平台1.0版本发布后,上线了超过200个个性化定制实时预测模型,依靠底层强大的GPU算力,每天都有数十个分类等模型在迭代运算,在情感判定定制化干预模型下,个别客户已经能够做到99%的负面判定准确度。

(3)AI工具赋能效率提升

依托百分点人工智能实验室,我们致力于通过人工智能技术提升信息挖掘的智能化水平,同时,我们也专注于通过 AI 帮助提高人员的服务效率,在舆情服务的全周期过程中,我们不仅通过自主研发的 AI 运营平台,为舆情分析师提供文本挖掘效率辅助,还引入了百分点自主研发的智能媒体校对系统,在舆情系统和舆情分析师的报告输出环节,做自动化的媒体稿件审校,避免错误,让报告服务更专业。简单来看,舆情服务体系的构建不仅仅是一个汇集数据采集、处理、呈现的大数据流式系统,而是一个服务于舆情客户生态的业务闭环,如何充分利用反馈数据,迭代提升指标效果非常重要。随着 SaaS 发展进入了 3.0 时代,从技术角度看,结合舆情发展的新趋势,我们仍将聚焦以下两点:

(1)AI 技术将持续精进,从赋能者向引领者进化

在数据采集方面,将持续推进网络采集机器人的智能化,让人工干预更少,信息覆盖更全,站点采集更稳定;在文本分析方面,将持续探索深度迁移学习在舆情数据信息分类、事件聚类、情绪识别、热点追踪等场景的落地应用;同时,将持续推进 AIOps 在舆情服务体系的应用实践,让 AI 自动化提升信息系统迭代效率,支撑企业细分场景下个性化的需求。

(2)聚焦效率提升,降低边际成本

我们仍将聚焦通过技术驱动提升服务效率,降低边际成本。在数据处理层面,推动构建实时数仓,大幅提升数据定量分析效率;在数据运营层面,进一步丰富数据 ETL 自动化工具,降低人工服务的工时成本;在产品创新的同时,促进模式创新,提升舆情服务体系的运转效率。

猜你喜欢

舆情标签规则
撑竿跳规则的制定
数独的规则和演变
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
让规则不规则
TPP反腐败规则对我国的启示
舆情
舆情
标签化伤害了谁
舆情