德迅网德迅网德迅网

基于社交媒体的中文网络流行语自动获取方法研究

【摘要】:随着互联网走入我国的千家万户以及移动互联网井喷式的发展,我国的信息社会经历了飞速的发展。同时,网络生活的不断丰富,越来越多的网络流行语从“线上”走入到人们的“线下”生活中。网络流行语作为网络环境中的交际语言,简单实用、生动活泼,深受网民的追捧,在一定程度上影响着数字化时代文化传播的方向,是网络文化的体现形式之一。研究网络流行语对于舆情分析、热点事件追踪以及语言演化规律研究等都有重要意义。目前有很多关于网络流行语的评选活动,但通常是通过问卷调查等人工评选方式来获取的,这种方式主观性强并且会耗费大量的人力物力。在这种背景下,使用机器学习的方法通过计算机辅助获取网络流行语来得到客观的网络流行语排名是具有重要的学术研究价值的。同时,流行语的自动获取作为一种基于自然语言处理研究上的应用性研究工作对计算语言学及中文信息处理的研究都具有重要意义。本文提出了一种使用计算机自动获取网络流行语的模型,该模型以大规模网络语料库为基础,通过使用条件随机场模型对网络语料进行分词、网络百科平台规则提取词条信息、汉语输入法细胞词库的导出等步骤构建出网络流行语候选集。依据网络流行语在使用度分布上存在短时间内快速提升这一规律,对候选词语在不同时间节点的使用频度进行统计并按年度对候选词语建立概率模型,通过计算相邻时间段的模型间的KL距离对候选网络用语的流行程度进行度量并词语流行度得分,通过排序自动获取网络流行语。最后,依据中文网络流行语获取模型设计并实现了一个流行语流行度计算系统,该系统包括网页信息抽取、网络用词频次统计、流行语流行度计算功能等模块。使用该系统对2014年度网络论坛大数据集进行实验的结果表明,本文提出的中文网络流行语获取模型能有效地识别网络流行语,自动获取的结果与人工协同标记的结果具有很高的一致性。由于该方法受调查者主观喜好的影响小,所以自动获取的结果排名甚至在一定程度上优于人工排序的结果,能更客观地反映语言在真实使用中呈现出的特点与规律。该模型不仅仅为计算机辅助判定词语的流行特性提供了参考依据,同时也提供了一种便捷获取中文流行语的途径。

德迅网 » 基于社交媒体的中文网络流行语自动获取方法研究
免责声明:本文来自互联网分享,不代表本网的观点和立场。