APP下载

基于法律快车网的智能推荐与分析系统

2022-05-06王高佳晨林国凤陈婷婷

中国新技术新产品 2022年3期
关键词:离婚率快车词条

王高佳晨 林国凤 陈婷婷

(厦门华厦学院,福建 厦门 361024)

0 引言

随着法制社会的推进,人民已经学会拿起法律武器捍卫自己的利益。由于法律行业具有专业性和区域性的特点,因此人们在寻找律师时缺少可以参考的依据,通常通过行业的口碑、熟人推荐等渠道寻求律师的帮助。虽然国内有类似法律快车网在线的法律咨询平台,但是由于互联网规模和覆盖面的迅速增长会带来信息超载的问题,因此用户很难在法律快车网找到感兴趣的内容,传统的搜索算法只能为用户呈现一样的排序结果,无法针对不同用户的需求提供个性化。

1 相关工作

该文针对用户需求设计了一套智能推荐与分析系统,该系统具备可视化大屏展示的功能。如图1所示,该系统主要包括4个模块:数据处理模块、智能推荐模块、数据分析模块和数据可视化模块。该文涉及的工作主要包括以下4个方面:1) 数据处理模块。包括数据采集、数据清洗以及数据存储。2) 智能推荐模块。采用基于协同过滤的推荐算法实现推荐法律知识和律师服务的功能,根据当事人对法律快车网的浏览记录为用户推荐相关的法律知识和律师服务,从而实现提供个性化服务的目标。3) 数据分析模块。基于加权TFIDF算法和聚类分析算法研究某一段时间内某地域的热点事件,实现对地域热点事件的追踪,进而实时把握、追踪社会热点。采用统计算法分析离婚案件与地域的关联性,适当地为用户提供合理的参考案例,为用户妥善处理离婚事件提供法律支持。4)数据可视化模块。对基于法律快车网的智能推荐结果与分析结果进行前端大屏可视化展示。

图1 基于法律快车网的智能推荐与分析系统架构

2 数据处理模块

使用网络爬虫技术访问法律快车网站并采集数据,通过网络爬虫相关的页面解析技术,从访问页面中提取价值数据,数据字段包括用户ID、用户所在省市、来源关键词、来源网站、访问时间、访问页面、页面标题、标签、网页类别、关键词、律师ID、律师姓名、擅长领域以及律师所在省市等。

对采集的数据进行数据清洗与存储,清除关键词段为空的数据以及律师和用户不可用的数据。将清洗规整的数据拆分为5个表(开展不同的分析工作),分别是律师表、用户表、提问信息表、法律知识表以及综合信息表。

3 智能推荐模块

用户进入法律快车网网站主页查找资源,自行寻找位于不同栏目下的目标资源相对困难,此时需要网站提供推荐功能,推荐用户感兴趣的页面(例如让有法律援助需求的公众快速找到合适的律师)。该文通过数据建模分析用户事件行为,设计了基于协同过滤的法律快车网推荐模型,该模型是基于计算用户相似度的思想,根据用户对信息类别的偏好找到相似用户,再将相似用户喜欢的推荐给当前用户。该系统所推荐的内容分为2个部分,第一部分是为用户推荐律师,第二部分是为用户推荐法律知识。

首先,对常用用户的浏览数据进行分类,根据法律类别的不同来反映用户的偏好,并对偏好程度进行加权,得到用户对不同类别信息的总体喜好程度。其次,对目前登陆用户的历史浏览数据进行分析,得到满足当前用户需求的律师和法律知识,根据用户的需求程度计算相似用户,从而基于相似用户进行推荐。相似度的基础计算方法是基于向量的,也是计算2个向量之间的距离,距离越小表示相似度越高。在推荐场景中,可以将用户浏览信息类别偏好看作二维矩阵,将1个用户对所有物品的偏好作为1个向量,也可以将所有用户对某个物品的偏好作为1个向量,从而计算物品的之间的相似度。

2个用户的相似度如公式(1)所示。

式中:和分别为2个不同用户的维向量,= [,,,...,X](X为向量),=[,,,...,Y](Y为向量);为用户与用户的夹角,=0°,其余弦值为1。

当2个向量之间的夹角越小(越趋近于 0° ),2个用户(和)越相似。

完成相似度的计算后,根据相似度找到用户-浏览信息类别的邻居。该文采用的算法是挑选固定数量邻居的方法。根据邻居的相似度权重以及他们对信息类别的需求,预测当前用户没有浏览过的律师信息与法律知识,计算网站的访问次数的权重。经过加权计算得到1个排序的物品列表作为推荐,试验设置为5,表示将排名前五的律师或类别法律知识推荐给访问用户。

4 数据分析模块

4.1 热点事件

需要严密地对网上的突发舆情信息进行监控,希望可以把握和跟踪最新的社会热点,并分析其对人们生活造成的影响。发现热点事件是要发现某个以前未知的热点话题,可以通过不同的聚类算法来发现话题。但是单纯通过聚类算法无法处理文本信息,该文提出的基于聚类分析和TF-IDF加权的算法能够很好地解决区域热点分析问题。该方法比传统的单一基于聚类的热点事件分析方法拥有更高的准确性。

热点事件模块设计分为以下4个步骤:1) 使用结巴分词将数据集中提出问题切成词组。2)TF-IDF找出关键词。TF词频(Term Frequency)和IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF表示如果包括词条t的文档越少,也就是越小且IDF越大,则说明词条t具有很好的类别区分能力。反之,词条t不具有区分能力。词频如公式(2)所示。反文档频率如公式(3)所示。为词条对文档的重要程度,如公式(4)所示。3)K-means聚类。通过从数据中随机选取个词条作为初始点质心,计算质心与数据点距离不断迭代,当质心的距离小于设定的阈值,算法终止。4) 合并同类。将同一类别的文件合并,对每个同类文件进行加权词频统计与排序,筛选出排名前位的词条作为这段时间内该区域的热门事件。

式中:n为该词在文件d中出现的次数;∑n为在文件中所有词出现次数的和;为文件d中所有词的数量。

式中:||为语料库中的文件总数;|{︰td}|为包括词语t的文件数目(即n的文件数目),如果该词语不在语料库中,就会导致被除数为0。

4.2 离婚案件

工业化与现代化的深入推进给现代社会婚姻家庭关系所带来的重大变化之一就是离婚问题日益突出,离婚率趋向上升。该文使用大数据分析技术分析了中国省级与市级之间离婚水平的差别和离婚水平与用户所在地区的关联性。

离婚案件分析模块设计如下:一个地区的离婚水平与该地区所有用户访问法律快车网中有关离婚信息的次数和所有用户访问网站所有信息的次数的比率与该地区访问离婚案件的用户人数和总用户数的比率有关,地域离婚率,如公式(5)所示。

式中:N为统计离婚咨询次数;N为该地区咨询总数;N为咨询离婚案件的用户数;N为总用户数;与为2个比率的权重系数。

在该试验中,初始化与,表示咨询次数比率对地域离婚率的影响占比,用户人数的比率对地域离婚率的影响占比,在试验中分别设为0.3与0.7。地域离婚率越大,该地区的离婚案件越多;地域离婚率越小,该地区的离婚案件越少。

5 数据可视化模块

数据可视化将数据分析模块进行精美又直接的展示,该文采用可视化大屏的方式对分析与推荐结果进行展示。在数据可视化模块中展示热门事件词云图、福建省各地区咨询离婚次数、全国各省离婚率占比、用户地区分布、相关律师和法律推荐。

从可视化大屏中直观获得用户总人数为36 040人,其中律师总人数为6 206人。为了直观地观测用户群体所在的地区,绘制圆环图与中国地图,在地图中则能够观测到各省份用户的访问次数。

对用户在法律快车网上提出问题的数据进行分析,得到时间段内出现频率较高的词汇数据,以厦门地区为例,分析近一个月内的高搜索频率词条,将其作为热点事件并通过词云图直观地呈现出来,如图2所示。

图2 热门事件的词条

图3用柱状图形象地展示了福建省各地区离婚率的差异,可以直观地了解离婚案件与地域的关联性。以福建省为例,横坐标为福建省的部分城市,纵坐标为访问离婚案件的次数(单位:次),福州市的离婚咨询次数最高,其次为厦门市和泉州市。其中,三明市的离婚咨询次数最低。

图3 福建省各地区咨询离婚次数

系统智能地为用户推荐合适的律师与法律知识,试验结果如图4所示。当用户进入网站时,系统会识别用户ID,匹配与该用户ID最相似的其他用户,将相似用户曾经多次访问过的律师信息推荐给给该用户。方便用户快速地查找自己符合自己需求的律师和答案。

图4 推荐律师与法律知识

该文设计了基于协同过滤的法律快车网推荐模型,该模型基于计算用户相似度的思想,分别对用户-律师和用户-法律知识数据进行分析,从试验结果可知,该模型的推荐结果能够满足用户的需求。

6 结语

该文提出基于法律快车网的智能推荐与分析系统,该系统能够帮助用户简单快速地在法律快车网中找到感兴趣的法律知识和专业律师。该系统使不同地域的用户进入系统之后都可以直观地浏览近期该地域的热点事件,发挥对社会事件的监督作用,具有很大的应用价值,还可以为其他网络平台的建设提供参考。

猜你喜欢

离婚率快车词条
健康快车
健康快车
健康快车
单亲家庭,风雨前行
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
离婚率与房价
——基于面板数据模型的实证分析
离婚率逐年攀升 是什么让婚姻变得脆弱
2016年9月中国直销网络热门词条榜
大数据相关词条