您好,欢迎来到年旅网。
搜索
您的当前位置:首页基于数据挖掘的社交网络信息推荐与预测方法研究

基于数据挖掘的社交网络信息推荐与预测方法研究

来源:年旅网
第47卷第2期 2018年3月 内蒙古师范大学学报(自然科学汉文版) Journal of Inner Mongolia Normal University(Natural Science Edition) V0I_47 NO.2 Mar.2O18 基于数据挖掘的社交网络信息推荐与预测方法研究 陈 婉 ,朱世杰 (1.郑州旅游职业学院信息网络中心,河南郑州450009}2.郑州旅游职业学院学生处,河南郑州450009) 摘要:针对现有推荐与预测方法中存在的不足,提出了一种基于数据挖掘的社交网络信息推荐与预测方 法.该方法在传统预测模型的基础上构建了双向社交网络推荐与预测框架,并在框架内整合了用户类别、行为和 内容相似性特征构建广义的拓扑特征集合,通过协同过滤算法对用户的权重特征进行聚类分析,提升模型的预测 效果.实验结果表明,该方法有效提升了静态数据环境下的挖掘精度. 关键词:信息推荐}数据挖掘}预测模型;特征提取;特征融合 中圈分类号:TP 393 文献标志码:A 文章编号:1001—8735(2018)02--Ol27一O5 doi:10.3969/j.issn.1001—8735.2018.02.008 随着计算机网络技术的快速发展,社交网络的数据呈现井喷现象,获取的数据经常含有噪声和不完整特 性,具有明显的病态特性n ],如何从众多的病态数据中抽取有用的信息,成为数据挖掘技术的关键技术之 一.现有的研究主要是利用网络的海量数据构建网络的推荐和预测模型,利用不同社交人员的兴趣信息,为 网站开发提供有效的预测基础[3].该方法在机器学习的框架下,通过构建有效的预测模型,利用海量的网络 数据完成特征的提取和模型残联的训练,实现不同任务驱动的有效解决[4 文献r5-1采用不拓扑特征,针对识 别确实连接的不确定性展开研究;文献E6-1利用Twitter用户的行为信息构建特征行为的预测模型,并获取 了用户行为特征的有效预测参数;文献[7-1基于特征聚合的思想,通过距离的有效度量和拓扑结构的联合优 化,实现了社交网络构架参量的推荐和有效预测;文献1-83通过引入流动特征分析参量,在预测模型中进行 了网络交互参量的预测,在静态网络的分析中实现了很好的推荐效果;文献[-93基于相似性度量指标对推荐 和预测模型的参量矩阵进行分析,通过子矩阵的匹配实现参量的有效提取;在此基础上,文献Elo]进一步引 入了时间关联性特征,增强子矩阵的关联性,进一步提升了参量的预测精度和鲁棒性;文献[11]和[12]进一 步在预测模型中融人了聚类的思路,将时空特征的聚类思想应用到社交网络的有效推荐系统中;文献D3] 则从信息论的角度对推荐和预测模型的参量优化问题进行度量分析,基于统计的思想对网络模型的拓扑结 构进行优化分析. 虽然这些方法对社交网络信息的推荐和预测分析提供了很好的分析思路.但是,这些方法主要聚焦于拓 扑相似性系数的研究和分析,过于依赖训练数据的特征提取精度和数据特征的覆盖度,在未知环境的数据网 络中应用效果并不理想口 ].针对现有研究中存在的问题,本文提出了基于数据挖掘的思想,构建了一种社 交网络推荐与预测框架.通过构建有向微博网络模型,在社交特征集合中整合了用户类别、行为和内容相似 性特征构建广义的拓扑特征集合;并通过协同过滤算法对用户的投票特征进行聚类分析,提升模型的预测 效果.最后,进行了详细的计算机仿真分析,验证了本文方法的有效性. 1 基本问题说明 1.1推荐和预测框架 社交网络的信息推荐和预测比较复杂,特别是目前海量互联网数据的条件下,如何构建有效的预测模型 收稿日期:2017—03—18 基金项目z河南省基础与前沿技术研究计划项目(142300410463) 作者简介。陈婉(1979一),女,河南原阳人,郑州旅游职业学院讲师,主要从事计算机网络技术研究 通讯作者:朱世杰(1982一),男,河南许昌人,郑州旅游职业学院讲师,主要从事计算机网络研究. 内蒙古师范大学学报(自然科学汉文版) 第47卷 对数据的完整性和特征提取的有效性依赖较大.采用数据挖掘的方法在海量的不完整、含噪数据中进行特征 的分析和提取本身就是一个十分具有挑战性的课 题u .对于社交网络的数据信息而言,具有记录时 用户个人属性 用户节点特征 间短、数据结构特殊等特点,导致可以利用的文本和 数据信息有限,且特征缺失严重,因此,本文拟采用 结构相似性标准 图1所示的推荐和预测流程进行分析.首先,基于社 交网络获取的数据集合,构建用于模型预测的数据 (1)社交圈信息 特征,实现用户[U ,U,]之间联络关系的表征.在分 (2)用户分类信息 (3)用户行为信息 析现有研究基础上,本文研究中主要选择了用户的 (4)用户消费信息 节点特征、网络拓扑结构特征、用户社交特征以及权 重特征表征用户[U ,L,,];在后续的研究中将模型  l关联用户影响 【—————.————— — 一——— — ———————— 的预测问题转化为二值分类. 基本信息 1.2 数据构成 采用G( ,E)表示分析的无向网络. 和E分 别表示节点和链接.社交网络中,用户之间主要是通 过关注来进行有向图的连接和构建,本文研究中将 图1 推荐和预测的基本原理框架 Fig.1 The basic principles framework for 社交网络看作是一组关系列表,将用于分析的全部 recommendation and prediction 用户的集合表示为: U一([L, ,U ],[U,,U ],…,[ ,U,],…,[ 一 ,U ]l i,J一1,2,…,n) 其中,[U,,U,]为一个标定的用户对,主要包含给定的数据特征集合和一个用于身份说明的标签.特征集合 采用1.1部分介绍的四种特征构建.标签采用二值分类形式构建,当取值为0的时候,表示用户对之间不存在 关注;当标签取值为1的时候,表示用户对之间存在关注问题. 2 特征的提取 本文研究中采用四种特征构建特征集合,分别是用户的节点特征、网络拓扑结构特征、用户社交特征以 及权重特征,具体说明如下: 2.1 用户节点特征的提取 在对社交网络模型进行训练和分析过程中,个人用户节点特征能够提供非常重要的信息,但是考虑到个 人隐私的影响,不可能获取用户的全部资料和信息.为了提升用户信息的精度,后续采用信息聚合的方法对 个人用户的信息进行优化.分别采用粉丝的人数、被关注和关注的人数、发表的微博数量以及转发和评论微 博的数量作为用户节点特征的聚合信息进行分析,通过这些信息的提取对用户的活跃度、参与度进行度量, 进而给出准确的用于节点特征集合,来表征单个用户的社交特征与性格. 2.2 网络拓扑结构特征的提取 本文在网络拓扑结构特征中提取相似性指数进行特征集合的计算.在进行网络拓扑结构特征提取过程 中同传统方法的最大不同之处在于不是直接寻找网络最优的相似性指数,而是对整个网络的特征集合进行 整体优化,实现多对单的特征映射,而不是传统的单对单的特征映射. 网络节点 (z,V)的基本结构主要是基于邻居特征进行定义,在移动微信社交网络中这种邻居节点也 就是常说的好友,而在计算机网络微博中的这种节点被称作粉丝.本文采用好友的定义进行相似性指标的计 算,具体特征的提取采用局部特征信息,详细的提取过程可以参考文献[-16]. 2.3 用户社交特征的提取 传统的社交网络属于无向网络,而现有的“微信”、“微博”等社交网络均属于有向网络,存在“关注”和“被 关注”的双向特性.为便于分析,本文采用文献[17]提出的邻居重叠率和间接邻居重叠率进行社交关系的特 征分析. 假设r ( ){Y( ,Y)E)为用户.17关注对象的集合,r ( ){y( , )E}表示关注 的用户集合(也就 第z期 陈婉等:基于数据挖掘的社交网络信息推荐与预测方法研究 是常说的 的粉丝),则z的邻居重叠率由三个参量构成,分别是关注重叠率、粉丝重叠率以及粉丝之间的重 叠率,假设i和.『分别表示关注的人和粉丝,则可以将各部分参量计算为: 关注重叠率: G = 粉丝之间的重叠率: ,、 粉丝重叠率:F 一 宝 箐 2×I r ( )n j1 ( )I 一” IFi ( )I+I/-。 (J)l 间接邻居重叠率主要是表征不同用于之间的检测联系,与邻居重叠率不同的是,检测令居重叠率是一种 双向的映射关系[】8], 的间接邻居重叠率由两个部分构成,分别计算如下: 关注人i占粉丝 的比率 Ir。 (i)O I1 ( )I J/-,抽( )I 粉丝占关注人的比率 f r ( )O/-,。 ( )f l/-, (J)l 2.4权重特征的提取 在微信以及微博等交互性双向社交网络中,用户的具体行为取向一方面收到用户自己的个性、喜好以及 属性的影响.另一方面,容易受到关注和被关注对象的影响.因此,本文在进行信息推荐和预测模型的分析中 充分考虑了关联用户的影响,通过采集关联用户的意见集合,基于协同过滤算法计算关联用户的全权集合 (tg就是好友的属性影响),从而为用户关联的预测提供概率信息. 3 实验与结果分析 3.1数据采集说明 该部分主要是对本文所提方法的有效性和优越性进行实际的仿真分析,因此,数据主要是基于新浪微博 截取的静态数据.共采用了54 000个用户的数据信息,包括2 795 680条关联数据和1 987 450条用户的非关 联数据.从这些数据中任意选择了一组房地产信息的用户交互状态数据.采用1.2节中说明的分类标注方法 对数据进行预处理,如果选择的用户对[【厂 , ]相互关联,则认为该用户对[【, , ]为正样本,否则为负样 本.在此基础上构建本文用于挖掘分析的数据库信息,构建步骤如下: 步骤1:构建所有用户的正样本集合(手动挑选出具有关联关系的链接); 步骤2:随机选择每个用户的负样本,要求和该用户构建的正样本个数相同; 步骤3.将正负样本堆叠为一个整体的样本集合; 步骤4:从整体样本中随机的抽取15 000个样本用于分析. 3.2实验平台及相关度量指标说明 为了进行数据挖掘分析,本文采用Weka实验平台,该平台是目前研究数据挖掘和机器学习的普适性平 台[1 ,基本上继承了现有研究中广泛采用的机器学习算法.为了对比分析,本文研究中分别采用了支持向量 机分类器(SVM)、随机森林分类器(RF)以及朴素贝叶斯分类器(NB)进行实验分析,采用目前数据挖掘通用 的准确率、F值和召回率作为算法的评价指标 ]. 3.3结果分析 根据3.2的说明,该部分主要针对选择的三种分类器进行推荐和预测分析.其中,为了便于说明本文方 法的有效性,分别针对不同的特征个数进行了指标对比分析.准确率、召回率和F值的具体结果如图2、图3 和图4所示.其中,三个图的横坐标表示采用的特征集合的个数.“1”表示采用的是用户的节点特征集合,“2” 表示采用的是节点特征集合联合网络拓扑结构特征集合,“3”表示的是用户节点特征集合、网络拓扑特征集 合以及用户社交特征集合的融合,“4”表示的是本文提取的4中特征集合融合. 内蒙古师范大学学报(自然科学汉文版) 第47卷 从图2~图4中可以看出,不管是单个特征,还是4个特征的联合,三种分类器中随机森林RF方法具有 最高的挖掘效果,SVM具有最差的挖掘效果.随着 特征个数的增加,整体上三类方法的挖掘效果都 有了一定程度的提升.这说明了本文提出的多特征 ----。■ l_jilt -。-·● hF-.=--一 --I__一 I-_·-__ 融合方法的数据挖掘取得了优秀的挖掘效果.但是 . r. 从图3中可以看出,在采用节点特征集合联合网 一.一.. 络拓扑结构特征集合的时候,NB方法的挖掘效果 鐾 r,r l1=:: 鬈 I ..▲-●La‘In ■c…I 有所降低,主要是因为网络拓扑的加入,导致了贝 叶斯推理分类器的子路线增加,而这种子路线的 双向性导致了挖掘的不确定性,相当于在原本稳 定的特征集合中加入了不稳定性,因此,在后续的 研究中需要进一步针对特征互补性展开分析,进 一哥 / / 1 1.5 r—r 2 2.S 3 3.S 4 步提升数据挖掘的有效性.但是,最终整体上来 特征集合个数,个 看,本文方法有效提升了不同分类器的推荐和预 测效果. : : : ▲ ,一_r 图2准确率曲线 Fig.2 Accuracy curve ...-I’--_ l一.一 ; -一· …{ I. -P_-·-I -·-’’’ . 一一 一 < 碍 回 m r T ., \. / ? f ,r _, -.-1.-.. I●._. / /’ rr  f? ———。..一,-U.-支持冉量帆Ib'VId 1·一 I—.一直持向避帆^s、 I I_·_●■-… ^, l 一 ◆一■瓤奢椿, ——·一梓素贝叶新,惦—I I 4 ' 1.5 2 2.5 I· · 五 e I : 』 ' 1.5 2 2.5 3 3.5 3 文5 4 特征集合个敷,个 特征集舍个数价 图3召回率曲线 Fig.3 Recall rate curve 图4 F值曲线 Fig.4 F value curve 4 结论 本文采用数据挖掘的方法对社交网络情况下的信息推荐和预测模型展开研究,提出了基于数据挖掘的 多特征融合推荐和预测方法.从文中的理论分析和实际的测试结果可以看出,本文方法整体上提升了信息推 荐和模型预测精确性.但是本文方法的数据分析是基于微博截取的静态数据,因此,实际的测试中没有考虑 到分类的实时性,为了提升本文方法在后续在线挖掘的实现,需要进一步扩展分析本文方法在动态数据情况 下的挖掘效果,这将是下一步的研究重点. 参考文献: [1-1 GETTOR L,DIEHL C P.Link Mining:A Survey[J].SIGKDD Explorations News letter,2005,7(2):3-12. [23胡长军,许文文,胡颖,等.在线社交网络信息传播研究综述[J].电子与信息学报,2017,39(4):794—802. [3]郝增帅,郭荣华,文伟平,等.基于特征分析和行为监控的未知木马检测系统研究与实现[J].信息网络安全,2015(2): 57—65. [4]ZHU K,CHEN Z,YING L.Locating the contagion source in networks with partial timestamps[J].Data Mining and Knowledge Discovery,2014,30(5):1217—1248. 第2期 陈婉等:基于数据挖掘的社交网络信息推荐与预测方法研究 REBAZA J,LOPES A D A.Exploiting Behaviors of Communities of Twitter Users for Link Prediction[J]. [5] VALVERDE_Social Network Analysis and Mining,2013,3(4):1063—1074. [63 LATHA R H。KUMARI K S.Survey on Link Prediction in Facebook and Twitter[J].International Journal of Engineer— ing Research and Application,2012,2(5):1631—1637. [7] 陈杰,刘学军,李斌,等.一种基于用户动态兴趣和社交网络的微博推荐方法[J].电子学报,2017,45(4):898—905. [8I 张士豪,顾益军,张俊豪.基于用户聚类的热门微博分类研究[J].信息网络安全,2015(7):84—89. XIA Yongxiang,ZHU Boyao.Link Prediction in Complex Networks:A Mutual Information Perspective[J]. [93 TAN Fei,Plos One,2014,9(9):107-115. [1O3 LEICHT E A,HOLME P,NEWMAN M E J.Vertex Similarity in Networks[J].Physical Review E,2006(2):卜1O. [11] PAN Ying,LI Dehua,LIU Jianguo,et a1.Detecting Community Structure in Complex Networks via Node Similarity[J]. Physica A:Statistical Mechanics and Its Applications,2010,38(14):2849-2857. [123 钟杰,王海舟,王文贤.基于话题的微博信息传播拓扑结构研究[J].信息网络安全,2016(3):64—70. larity Index Based on Local Paths for Link Prediction of Complex Networks [133 I V Linyuan,JIN Cihang,ZHOU Tao.Simi口].Physical Review E,2009,80(2):116-122. [143 周红福,贾璐,张婷婷,等.微博舆情分析中信息转发路径提取方法研究[J].信息网络安全,2016(4):61—68. [15] Hially Rodrigues S,PRUDENCIO R B C.Supervised Learning for Link Prediction in Weighted Networks[J].Interna— tional Workshop on Web&Text Intelligence,2010,42(4):1-6. [163 周美林.分类框架下融合多形态特征的微博好友推荐研究[D].北京:北京语言大学,2013. [173 PHAN T Q,AIROLDI E M.A natural experiment of social network formation and dynamics[J].Proceedings of the National Academy of Sciences,2015,112(21):6595—6600. [18] 黄振华,张波,方强,等.一种社交网络群组间信息推荐的有效方法[J].电子学报,2015,43(6):1090—1093. [19] 任星怡宋美娜宋俊德.基于位置社交网络的上下文感知的兴趣点推荐[J].计算机学报,2017,40(4):824—841. [2o3 陈婷,朱青,周梦溪,等.社交网络环境下基于信任的推荐算法口].软件学报,2017,28(3):721—731. Research on Social Network Information Recommendation and Prediction Method Based on Data Mining CHEN Wan ,ZHU Shi-jie (1.Information Network Center,Zhengzhou Tourism College,Zhengzhou 450009,China; 2.Students'Affairs Division,Zhengzhou Tourism College,Zhengzhou 450009,China) Abstract:With the development of two—way social networks such as“We Chat”and“Micro—blog”,the recommendation and prediction of social information become more and more important.In view of the shortcomings of the existing recommendation and prediction methods,this paper proposes a method of social network information recommendation and prediction based on data mining.Based on the traditional prediction mode1.this method constructs a framework for recommendation and prediction of bi—directional social networks,and integrates user categories,behaviors and content similarity features into the frame— work to construct generalized topological feature sets.The method uses collaborative filtering algorithm to cluster the users weight characteristics,so as to improve the prediction effect of the mode1.Experimental results show that the proposed method can effectively improve the mining accuracy in static data environ— ment. Key words:information recommendation;data mining;prediction model;feature extraction;feature fusion 【责任编辑刘凤祥】 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务