推荐阅读:摘要:为帮助科研用户解决在海量文献检索中遇到的信息过载等问题,该文从用户使用文献的行为出发,运用大数据分析中随机游走的二分图算法分析处理,通过协同过滤的方式预测用户未来的文献需求。评价指标显示本模型准确率为72.4%、覆盖率为14.6%、召回率为69.
摘要:为帮助科研用户解决在海量文献检索中遇到的信息过载等问题,该文从用户使用文献的行为出发,运用大数据分析中随机游走的二分图算法分析处理,通过协同过滤的方式预测用户未来的文献需求。评价指标显示本模型准确率为72.4%、覆盖率为14.6%、召回率为69.1%。能较好完成对文献的预测,实现对用户的个性化推荐,主动改善用户的文献检索环境。
关键词:二分图;随机游走;大数据;个性化;文献;推荐系统
Abstrac: This paper for helps researcher solve the information overload problems in vast literature search. From the user's literature use behavior, use the Random-Walk bipartite graph theory of big data analysis to analysis and processing, Through collaborative filtering approach to predict user future literature needs. Evaluating indicator shows the model: Precision rate of 72.4%,Coverage rate of 14.6%,Recall rate of 69.1%. It can be better to complete the predict for literature, to realize the individuation recommendation for user, initiative to improve the user's literature retrieval environment.
Key words: bipartite graph; random walk; big data; individuation; literature; recommendation system
随着“中国创造”的不断提升和发展,科研工作中各学科的融合性和精细度越来越受到重视,海量的科研学术文献也日益涌现。然而,科研用户的文献检索方法仍多采用关键字检索,而简单同质的关键字检索:一方面不能充分表达用户的科研特色、侧重点及知识需求;另一方面检索结果过多而发生信息过载现象,造成用户花费大量时间筛选无关文献。同时通过期刊分类导航获得的文献也有科学局限性,无法很好服务于融合多学科的科研工程。
1 研究思路
将用户对文献的使用行为(如:下载、阅读),视为用户对具体某文献的兴趣和知识需求。在多用户使用文献的行为中,行为相似性越高,表明其行为和知识需求越相似。通过对行为相似度分析,发现用户还未产生行为而有知识需求的文献,这类文献或是用户当前研究点中需要的知识,也或是下一步研究领域中的潜在需求知识。最终将满足用户个性化需求的文献主动推荐给用户。让用户从知识圈、兴趣圈的角度获取文献,这属于大数据分析中以协同过滤方式对海量“用户-文献”行为进行分析的方法。
本文运用大数据分析技术中的二分图模型算法[3],来分析“用户-文献”之间的概率相关性。这是用顶点和边来表示概率分布的技术。将用户与文献2变量之间的关系独立编码在“图”中表示,使概率分布的表达表示成因子乘积的形式。其优点是可以更好的捕获随机变量间的关系。应用方法为:将用户使用行为转换为一系列无向二元组表达,单个二元组用V(u,l)表示用户阅读过文献l,阅读行为通过“边”e(u,l)来连接。“用户-文献”二分图模型如下图1示例:
3个性化推荐方法
为在二分图模型上分析用户文献使用行为,实现个性化推荐。首先将用户u的文献推荐任务转换为:度量与用户顶点u没有“边”相连的文献顶点l与用户u的相关性。对相关性的计算采用一种概率系数的方式[4]。然后将用户u对所有文献的相关概率进行排序,概率系数越高表示用户u选择某文献l的可能性越大。最后取概率最高的前30篇文献作为推荐列表向用户展示,来实现用户个性化文献推荐。
3.1数据准备
第一步,运用随机游走的路径选择方式,从用户un顶点开始,在“用户-文献”二分图中随机选择“边”e游走到下一个顶点[6]。到达一个顶点后,首先计算概率α=1-d判断是否继续游走。若继续游走:则又按照随机路径选择的方式,在当前顶点上选择一条“边”e向下一个顶点游走,到达后继续计算概率α重复下去。若计算出的概率α为停止:则回到用户un顶点,重新进行下一轮游走。针对某用户un经过这样多次随机游走后,将每篇文献顶点的被访问到的概率迭代到一起,就能获得一个收敛的稳定值。通过对文献访问概率排序,提取概率最高的30篇用户un未产生行为的文献,就能预测到与某用户高度相关的、有需求文献。
4.2实验结果
将本文构建的计算模型对训练样本进行计算,得出的推荐列表通过评价公式验证,其结果如下表1所示:
通过与理想状态下的朴素贝叶斯、K-NN算法比较,本模型的准确率和召回率差异不是太大,能较好实现对用户行为的分析和预测。覆盖率为14.6%说明计算模型能较好挖掘长尾文献。通过实验,发现数据维度的向量大小与时间、空间复杂度有很大关系。
5总结
本文针对海量学术文献的检索过程中,科研用户常遇到信息过载等现象而无法较好获取适合自身需求的文献的问题。结合当前大数据、机器学习技术中的二分图模型算法,分析多用户对文献的使用行为,发现用户未来的文献需求。实验结果反映算法能较好完成预测质量,达到向用户推荐文献的要求。能帮助用户解决信息过载问题,发掘相对较低流行度文献,体现科研内容价值。下一步研究中:一方面,可通过增加文献内容特征,提高计算准确率;另一方面,可运用基于位置敏感的LSH(哈希函数)来降低运算的空间、时间复杂度。
参考文献:
[2] 肖诗伯,杨玉梅,兰鹰,等.基于多标签属性的学术文献推荐研究[J].情报探索,2015,(04):8-10.
[4] 刘建伟,黎海恩,罗雄麟, 等.概率图模型表示理论[J].计算机科学,2014,41(9):1-17.
[5] 原福永,蔡红蕾. 一种在信任网络中随机游走的推荐算法[J].现代图书情报技术,2014,30(10):70-75.
[7] 刘建国,周涛,郭强, 等. 个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,6(3):1-10.