APP下载

基于美食互动社区的用户饮食行为模型研究

2016-02-23越,曹

计算机技术与发展 2016年12期
关键词:概率分布菜谱文档

李 越,曹 菡

(陕西师范大学 计算机科学学院,陕西 西安 710062)

基于美食互动社区的用户饮食行为模型研究

李 越,曹 菡

(陕西师范大学 计算机科学学院,陕西 西安 710062)

随着大数据、“互联网+”时代的到来,互联网美食互动社区的用户原创内容呈爆发式增长,从海量饮食数据中发现自己希望寻找的内容越来越不容易,同时该部分数据没有得到广泛的利用和深度的挖掘;传统的对于饮食行为的研究多采用问卷调查等形式,耗费了大量人力、物力、财力。针对以上问题,提出了基于LDA的用户饮食行为模型:利用LDA模型的思想,分析互联网美食互动社区的用户原创内容,根据困惑度确定主题数,构建用户饮食行为模型,进而可以计算用户饮食行为相似度,以此为美食社区用户进行好友和美食推荐提供模型基础,同时为饮食行为研究提供了一个新思路。以爬虫技术获取互联网美食互动社区上的用户原创内容作为数据集,通过实验验证了这种算法的可行性和有效性。

饮食行为;美食互动社区;用户模型;数据挖掘;LDA模型

0 引 言

随着人民生活水平的不断提高,吃饱已经不能满足人们对饮食的需求,人们开始追求饮食的美味与健康。随着互联网技术和新的媒体形式的崛起,美食作为生活化互联网的一项服务,逐渐和网络社区结合成一种互联网美食经济产业链,由此催生的美食互动网站的设计和运营也变得越来越热门[1]。美食互动社区的快速成长与发展是互联网持续向社会生活渗透的写照之一,为人们获取更多关于饮食方面的信息提供了支撑,为美食爱好者提供了一个在线交流平台。人们通过美食互动社区发现、分享和交流美食。美食互动社区是典型的用户原创内容(User Generated Content,UGC)社区,其中80%的内容来自于用户。人们在网络中发布菜谱等这些线上行为一定程度上反映了用户线下的饮食行为习惯,这部分数据如果能得到充分的利用和挖掘,对于饮食行为干预[2]、疾病预防和控制[3]、食品推荐等问题的解决将起到很大的帮助。

传统的饮食行为研究方法通常是采用膳食调查[4]的方法,通过问卷及24小时食物记录表[5]的方式进行,耗费大量的人力物力不说,对于食物摄入量测量、食物成分多样性等复杂问题也得不到有效解决;第二类是对研究对象的调查,需要对研究对象进行跟踪记录,需要研究对象的主动参与。但上述方法均忽略了用户在互联网上留下的信息。

文中对美食社区数据进行统计分析,然后利用LDA模型构建用户饮食行为模型,以此模型为基础计算用户的相似度,为美食社区用户推荐和食品推荐提供模型基础。

1 LDA模型的基本思想

LDA(Latent Dirichlet Allocation)是目前应用最广泛的隐主题模型[6],具有扎实的概率基础和可靠的扩展性,被广泛应用于文本建模的各个领域。LDA是一个三层(文档-主题-词)贝叶斯模型,图1为LDA图模型表示。将文档表示成隐主题上的分布,而每个主题又表示成词的分布。

图1 LDA的图模型表示

其中,LDA模型采用Dirichlet分布作为概率主题模型中多项分布的先验分布。D为整个文档集,Nd为文档d的单词集,α和β分别为文档-主题概率分布θ和主题-单词概率分布Φ的先验知识,Τ为隐主题数。

2 基于LDA模型的用户饮食行为模型研究

2.1 基于LDA模型的用户饮食行为模型

文中借助于LDA模型的思想,构建用户饮食行为模型(Author-Eating Behavior Model)将原本的文档建模推广到用户饮食行为建模之上。假设数据集中的每个用户对应一个隐饮食行为的分布,而隐饮食行为则同样由菜谱属性词的分布表示。

使用LDA模型构建用户饮食行为模型时,需要将一个用户下的所有菜谱合并成一个文档进行饮食行为生成,从而得到用户饮食行为的概率多项分布,即用户的饮食行为模型。该模型将文档-主题-词的三层关系变成了用户-饮食行为-词的关系。

其中,pzk,v为给定饮食行为z时生成词w的概率。

2.2 用户饮食行为相似性计算

相似用户具有相近的饮食行为。计算用户间的相似度,可以将其应用于美食社区进行用户和食品的推荐。

KL(Kullback Leibler)散度,俗称KL距离[7],常用来衡量两个概率分布的距离,其计算公式如下:

(1)

KL散度是不对称的,即:

DKL(P‖Q)≠DKL(Q‖P)

(2)

可以将其转换为对称的,如下所示:

D(P,Q)=[DKL(P‖Q)+DKL(Q‖P)]/2

(3)

在基于LDA的用户饮食行为模型中,如用户主题矩阵所示,用户间的相似程度可以由各用户饮食行为分布之间的KL距离表示,用户相似度计算如下所示:

(4)

其中,sij为用户ui和uj的相似度;Ui和Uj分别是他们的饮食行为概率分布。sij越大,表示两个用户越相似。

3 实验结果与分析

3.1 实验准备

应用爬虫技术,从某美食互动社区网站上随机获取2014年4月到2015年3月期间6 834篇美食博客数据,数据概要如表1所示。

通过统计分析发现:

(1)工艺为“炒”的菜谱最多,占总数的24.5%,其次为“煮”,占16.4%,“拌”占12%。在中国,大部分家庭蔬菜烹饪以炒菜为主[8],数据统计符合中国人的传统饮食习惯。

(2)最多食类主料依次为猪肉、鸡蛋、面粉、胡萝卜、土豆、虾、大米、西红柿、豆腐、木耳、青椒、洋葱、牛奶、低筋面粉、香菇。均为日常生活中常见食材,便于获取,烹饪简单。

(3)“两人份”菜谱占49.2%,“三人份”菜谱占25%。与中国家庭结构吻合。

表1 数据概要

(4)准备时间在“15分钟”以下的菜谱占78.9%,烹饪时间在“30分钟”以下的占菜谱数的69.3%。说明人们倾向于简单易烹饪的食物。

(5)口味方面:“家常味”占36.5%,“咸鲜味”占19.9%,“甜味”占15.1%。

以上统计分析结果均与实际相符合,说明了网络数据的真实性、实用性,具有研究价值。

3.2 困惑度

困惑度[9]是用来评价主题模型的一个重要指标,主题模型用概率分布来描述一个文本的生成过程,因此理所当然地会想到用熵的概念来评判主题模型是否有效。直观的解释即为:若词表中所有的词都具有统一的概率分布,即每个词出现的概率都是一样的,这种情况下是最难预测的,而由熵的概念知此时的熵最大。而概率分布越不均匀,熵值越小。

文中应用LDA模型构建的用户饮食行为模型属于主题模型的一种,故也选用困惑度作为衡量算法的标准。该模型中困惑度的公式如下:

(5)

(6)

(7)

其中,M为测试集D中的用户数;p(Wd)为用户d的菜谱词向量;Nd为该词向量的长度;K为饮食行为数;p(zn=k|d)为用户d产生饮食行为z的概率;p(wn|zn=k)为饮食行为z生成词w的概率;θ为饮食行为的概率分布矩阵(见2.1节);φ为词的概率分布矩阵(见2.1节)。

LDA模型的求解过程使用基于吉布斯(Gibbs)抽样的参数估计方法[10-11],模型参数根据文献[12-15]选取经验值。其中,α=50/K(K为主题数,对应文中用户饮食行为模型中的隐饮食行为数),β=0.01。根据困惑度的结果确定最佳的K值。首先,尝试设置K为10,20,…,110时的情况,如图2(a)所示。模型的困惑度随着K的增大而减小,当K为40时困惑度最小,模型的效果最好。随着K不断增大,困惑度也随之增大。因此认为K的最优值在40附近。为进一步确定K的值,以1为间隔,选取K为30~50时计算困惑度,如图2(b)所示。最终确定文中构建用户饮食模型时的K为47。

图2 不同主题数下的困惑度

3.3 用户相似度

对采集到的数据进行随机筛选,以30个用户为例,应用饮食行为模型分析用户间的相似度,设置饮食行为K=47,得到相似度矩阵。随机抽取一位用户,列出与其相似度最高的十位用户,如表1所示。可根据用户之间的相似关系提供食品推荐服务、群体饮食行为研究等。

表2 与用户1相似度最高的十位用户

4 结束语

针对美食互动社区中的UCG数据,结合LDA模型的文档-主题-词分层模型的特点,用UCG数据来代表用户,进而提出了用户-饮食行为-词的用户饮食行为模型,为数据挖掘在饮食行为方面的研究提供了一个新思路。今后的研究工作可结合更多的社交网络特征,通过数据挖掘,为解决饮食行为干预、疾病预防和控制、食品推荐等问题提供更大的帮助。

[1] 毛 茅,王 洋,赵妤婕,等.基于社交网络的美食互动网站设计与评估[C]//第七届和谐人机环境联合学术会议(HHME2011)论文集.出版地不详:出版者不详,2011.

[2] 杨正雄,赵文华,陈君石.饮食行为干预的研究进展[J].中国学校卫生,2008,29(6):573-576.

[3] 贡浩凌,戴莉敏,刘 媛,等.医院-社区-家庭护理干预模式对2型糖尿病患者饮食控制的效果[J].中华护理杂志,2014,49(4):399-403.

[4] 张雅楠,丁 虹,杜玉萍.回顾性膳食调查辅助工具的应用现状与评价方法[J].职业与健康,2015(9):1294-1296.

[5] 安宜沛.慢性心衰患者膳食现况调查及中医药膳调养研究[D].广州:广州中医药大学,2015.

[6]BleiDM,NgAY,JordanMI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003,3:993-1022.

[7] 孙昌年,郑 诚,夏青松.基于LDA的中文文本相似度计算[J].计算机技术与发展,2013,23(1):217-220.

[8] 曾利明.中国民众存在五大饮食“误区”[N].光明日报,2004-11-26.

[9]HofmannT.Unsupervisedlearningbyprobabilisticlatentsemanticanalysis[J].MachineLearning,2001,42(1-2):177-196.

[10] 张 斌,张 引,高克宁,等.融合关系与内容分析的社会标签推荐[J].软件学报,2012,23(3):476-488.

[11]GriffithsT,SteyversM.Probabilistictopicmodels[M]//Latentsemanticanalysis.Hillsdale,NJ:LaurenceErlbaum,2006.

[12]AsuncionA,WellingM,SmythP,etal.Onsmoothingandinferencefortopicmodels[C]//Proceedingsofthetwenty-fifthconferenceonuncertaintyinartificialintelligence.[s.l.]:AUAIPress,2009:27-34.

[13] 石 晶,胡 明,石 鑫,等.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873.

[14] 刘振鹿,王大玲,冯 时,等.一种基于LDA的潜在语义区划分及Web文档聚类算法[J].中文信息学报,2011,25(1):60-65.

[15] 李文峰.基于主题模型的用户建模研究[D].北京:北京邮电大学,2013.

Research on User Eating Behavior Model Based on Food Interactive Community

LI Yue,CAO Han

(School of Computer Science,Shaanxi Normal University,Xi’an 710062,China)

As the time for big data and "Internet+" era is coming,user generated content of Internet food interactive community is experiencing the explosive growth.It is becoming more and more difficult for users to find the content of interest.And this part of the data has not been widely used and deeply mined.Traditional eating behavior research normally uses questionnaire,which spends a lot of manpower,material and financial resources.To solve the above problem,it presents user eating behavior model based on LDA.In order to build this model,the ideas of LDA model is used to analyze user generated content of Internet food interactive community,determining the subject number of model according to the perplexity,then calculating the user similarity of eating behavior,which can provide a basis of recommending friends or food for community users.It also provides a new way of eating behavior research.The user generated content from a Internet food interactive community is collected as data set.The experiments verify the feasibility and effectiveness of this method.

eating behavior;food interactive community;user model;data mining;LDA model

2016-01-20

2016-05-18

时间:2016-10-24

国家自然科学基金资助项目(41271387)

李 越(1991-),女,硕士研究生,研究方向为云计算、高性能计算、机器学习、数据挖掘;曹 菡,教授,研究方向为并行计算、大数据处理、空间数据挖掘、智慧旅游。

http://www.cnki.net/kcms/detail/61.1450.TP.20161024.1113.040.html

TP39

A

1673-629X(2016)12-0156-04

10.3969/j.issn.1673-629X.2016.12.034

猜你喜欢

概率分布菜谱文档
浅谈Matlab与Word文档的应用接口
“吃”出乡村振兴广东幸福菜谱推新品
有人一声不吭向你扔了个文档
离散型概率分布的ORB图像特征点误匹配剔除算法
宇宙菜谱失窃案
关于概率分布函数定义的辨析
基于概率分布的PPP项目风险承担支出测算
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
依赖于时滞概率分布的不确定细胞神经网络的鲁棒稳定性