摘要:我们期望机器可以像人一样撰写高质量的新闻,虽然目前有媒体宣称已经实现了新闻的自动生成,但大多是使用既定的数据,对人工设定的新闻模板进行自动填充,这种方式拓展性较差,也无法实现智能化。真正的智能新闻写作应该可以汇总和归纳给定数据和信息,自动产生符合相关标准的新闻,自动文本生成是实现这一目标的关键技术。
本文调研了常用的智能化生成文本的方法,鉴于文本数据具有序列性的特点,循环神经网络在文本生成任务上卓有成效,常用的循环神经网络模型主要是LSTM,GRU。本文首先对这两个模型进行了简要介绍,然后应用这两个模型到文本生成中,包括的方法有:1)将训练语料数据经过语言模型生成具有语义特性的分布式词表示,作为LSTM或者GRU的输入,训练得到神经网络模型,将新的数据也使用词表示的方法输入到已经得到的模型中,得到新的文本输出;2) 使用深度生成模型变分自编码,对语料数据学习到一个生成模型,使用该生成模型得到新的文本输出。最后提出这两种方法在实际应用中的困难。
关键词:新闻自动写作,文本自动生成,LSTM GRU,语言模型,变分自动编码
一、 研究背景
1.1发展历程
所谓“机器写作”,又称“机器人写作”,是指运用算法对输入或搜集的数据自动进行加工处理,从而自动生成完整新闻报道的一整套计算机程序[1],核心在于自然语言生成。“机器新闻写作”则指用这种技术进行新闻写作,是人工智能学科在新闻领域的应用。
机器写作要追溯到 20 世纪 50 年代,源自机器内容翻译的研究。 20 世纪 60 年代,为了验证指定的语法理论的正确性和转换生成语法的有效性,学者开始研究使用机器生成与上下文无关语法的句子;20 世纪 70 年代,计算机技术应用领域的拓展催发了其他领域机器写作的研究,如在游戏中利用机器写作生成游戏说明文本,同时学者开始尝试机器生成孤立句和复述自然语言;20 世纪 80 年代,机器写作技术得到了突飞猛进的发展,并逐步开始应用于段落、篇章的生成,文本规划的概念首次提出;20 世纪 90 年代,文本规划器和语言实现器的提出与实现促使机器写作开始应用到更多的领域中,如在军事上生成军事报告,气象局生成天气预报等等;21世纪初,机器写作技术基本成熟,各个领域也开始加快研究步伐,在医疗、新闻、 教育等领域开始实现机器写作系统,机器新闻写作甚至于投入市场,对新闻行业产生了极大的冲击与挑战[2]。如今,人工智能在各个领域大放异彩,新闻界也不可避免的接受人工智能的重塑,其中以机器人写作最具代表性。随着深度学习的发展,机器写作的新闻也开始变得更加多元化,更符合用户的需求。
1.2国内外的发展现状
从2010年起,叙述科学公司开发了一个名为Quill的系统撰写了“十大联盟”数千项大大小小体育赛事的新闻,它几乎是在比赛中进行实时报道,稿件不管是在数量还是时效上都远超以往。为了更好地把数据通过算法转化成文字,叙述科学公司雇佣了一批记者来“训练”计算机,使其能够从数据中发现各种各样的“角度”,并教会计算机如何组织文章的“架构”。此外,叙述科学公司的团队还为客户提供了报道语气风格的多样化选择。经过几年的发展,叙述科学公司的技术有了更强大的提升。2014年3月,该公司发布了Quill Engage平台,也就是谷歌分析(Google Analytics)应用。
国内媒体采用机器撰写新闻稿件起步较晚,但后续发展势头强劲。2015年11月,新华社宣布“快笔小新”投入使用,这台机器可以快速完成体育财经类的新闻自动写作。但这并不是国内第一个写作机器人。早在9月,腾讯财经发表的一篇题为《8月CPI同比上涨2.0%创12个月新高》的消息就由自动新闻写作软件Dreamwriter完成,在一分钟内将重要信息进行解读并送达客户。在2016年的里约奥运上,一个名叫Xiaomingbot(张小明)的机器人开始崭露头角。“张小明”的核心写稿模块由北京大学计算机研究所万小军团队和今日头条媒体实验室联合研发。这是国内第一款可以报道奥运赛事的机器人,在结合了最新的语言处理机器学习和视觉图像处理的技术之后,通过语法合成与排序完成新闻写作。在奥运会开始后的13天内,机器人“张小明”通过对接奥组委的数据库及时更新信息,配选图片,在短时间内完成消息写作和赛事汇总等工作,共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道,每一篇稿件生成的时间大约是两秒,每天可以撰写30篇以上,其发稿速度几乎与电视直播同时。
1.3机器新闻写作的意义
机器新闻写作作为一种新的智能工作为新闻领域注入了新的动力,它的实现彻底改变了传统新闻稿件创作的模式。机器写作将代替我们去重复撰写基本新闻稿件,记者更多地去做更高深有意义的工作。 机器写作主要有以下几个优势促进新闻稿件的创作:
第一,实时快速。目前,由于新媒体的出现,新闻消息的速度得到了很大的提升。作为新闻行业的竞争者,新闻报道的快速和实时成为占领头条的重要法宝。
第二,低成本。在信息时代,新闻报道的需求量不断增加,但大量报道的撰写其实是一种机械性的重复的工作,这大大加重了撰写者的负担,浪费了很多的劳动力。机器新闻写作在一定程度上把人力解放出来,使得人们有更多的精力去做更重要的事情。
第三,客观公正。毋庸置疑,人在撰写新闻稿件的时候会不可避免地把个人的主观情感带入其中,导致人们对新闻稿件的理解出现偏差。机器新闻写作在一定程度上可以完全做到客观性, 机器新闻写作实质上就是对信息的一种结构化输出,这样传达到民众身边的信息就是客观公正的。
二、 新闻写作相关技术
2.1自然语言生成
自然语言生成包括文本到文本的生成(text-to-text generation)、意义到文本的生成(meaning-to-text generation)、数据到文本的生成(data-to-text generation) 以及图像到文本的生成(image-to-text generation)等,新闻写作的核心技术就是自然语言生成技术(NLG),自然语言生成(NLG)一直处于人工智能和计算语言学的影响之下,属于交叉学科。意在构建高效的基于语言信息处理的计算机模型,通过将抽象概念和一定的语义、语法规则的结合来生成文本。经典的自然语言生成模型包括内容规划、句子规划和表层生成三个基本功能模块[3],在人机对话、机器翻译、自动摘要等自然语言处理任务中都有着广泛的应用。
传统的自然生成方法依赖于规则和专家,移植性很差,近些年,更多学者开始使用神经网络的方法处理NLG任务,Sutskere[4] 提出sequence to sequence模型解决英语到法语的翻译问题,使用两个LSTM 模型,一个用于编码,一个用于解码。该模型允许输入可变长度,因为来自编码器的输出总是映射到固定大小的向量。实施的结果表明与SMT系统相当。
本章将主要围绕文本生成技术,介绍基本的循环神经网络模型以及可行的技术方案。
2.2 循环神经网络