德迅网德迅网德迅网

机器人新闻写作的局限与不足

  ——基于腾讯财经写作机器人Dreamwriter作品的分析

  □广东 王江涛

  【摘要】:机器人新闻写作有明显的速度优势和强大的数据挖掘能力,但其在类型化叙事的过程中也存在段落结构连接不流畅、事实与观点的逻辑错位,以及现实与历史叙事的内在冲突等问题,受数据挖掘技术和数据库的限制,其在新闻语言的准确性和个性化表达方面存在较明显的局限性。

  【关键词】:机器人写作 Dreamwriter 类型化叙事 语言特色

  2015年9月10日,腾讯财经发表的一篇报道《8月CPI同比上涨2.0%创12个月新高》因为署名为自动化新闻写作机器人Dreamwriter,而备受业内外人士关注。11月8日,新华社宣布其机器人记者“快笔小新”上岗,也使相关的讨论持续深入。机器人写作,不仅是互联网技术对传媒产业的持续改变,还可能提升新闻作品的质量,推动新闻产品创新。①在这种技术与内容的融合中,传统媒体、传统新闻生产模式都将受到影响。正如喻国明所认为的,“‘机器新闻写作’是人工智能技术在新闻传播领域一个现象级的发展”,将引起新闻人角色的变化,以及改变现有的媒体形态,催生出“平台型媒体”。②

  从机器人写作的技术层面来讲,其快速写作功能的实现,有赖于内容丰富的数据库,以及模式化和结构化的数据整合,还离不开程序员等对新闻叙事风格和语言特色的分析和判断。以2015年10月14日腾讯财经写作机器人Dreamwriter撰写的三篇报道为例,三篇报道全都围绕国家统计局发布的9月CPI数据信息,但分为“精要”“研判”“民生”三个不同的版本。③相应地,每个版本的写作模式和具体内容都有所不同,显然,这样的多版本尝试是腾讯在为改进其机器人写作做的不同尝试,但对多个版本进行比较,也能够看出机器人写作在不同新闻叙事模式和语言特色上的差异。

  这种内容上的探索在当前技术相对稳定的情况下变得更为重要。从机器人写作的内容层面来看,内容的“非人格化”“机械化”“表达局限”等被认为是机器人写作的主要短板。尽管美联社等媒体已经较大规模地使用Autamated Insights公司制造的Wordsmith写作平台进行新闻生产,但没有一种产品能解决所有写作问题,尤其是内容风格上的效果,事实上,机器人新闻写作也并不像传统大众传媒一样,致力于满足更多数人的需求,机器的优势在于可以以较低的成本生产更个性化的产品。正如机器人写作平台Wordsmith上的广告语那样“Create thousandsof unique,personalized articles in the time it takes to write just one”,④它宣称要在既有的时间内,生产数以千计的独特的文章。换言之,这些文章的目标受众不再是一大群人,很可能只是一小部分,甚至一个。

  但机器终究是不能与人直接沟通的,个性化的产品背后,是程序员对机器人新闻写作模式的深度挖掘,是对类型化写作模式的更精准探索,和对文章语言特色的不断改进。本文即对腾讯财经写作机器人Dreamwriter迄今为止仅有的4篇作品进行分析,对其类型化叙事的特点和语言的特色进行探讨,并将内容生产本身和产品的发展相结合,探析中文机器人写作内容的发展。

  一、计算机语言与新闻叙事的类型化

  腾讯财经在2015年9月10日推出了第一篇由Dreamwriter写作的CPI报道后,又于10月14日,同时推出三篇不同风格类型的CPI报道,这些版本的差别,首先体现在叙事模式上。

  (一)段落结构的连接性障碍

  四篇新闻报道虽然篇幅长短不一,风格各异,但从文章结构上来看,均采取官方公布的基本数据信息加上专家分析的模式,而且,官方公布的基本数据信息位于开头,只占一段,而专家分析通常紧跟其后,每位专家的分析各占一段,但段落与段落之间没有明确的逻辑连接词,过渡并不自然。

  在这样的基本结构的基础上,四篇文章的段落结构仍有一些差别。比如第一篇新闻《8月CPI同比上涨2.0%创12个月新高》在引用了部分专家的分析后,又抛出一段基本数据“8月份,全国居民消费价格总水平环比上涨0.5%”,虽然只有一句话独立成段,但将文章的内容引申到另一个层次,即同上个月的消费价格进行对比。但遗憾的是,从原文内容来看,第二层次的论述内容十分分散,与这句过渡句并没有太直接的关系,反倒与第一个段落层次的专家分析内容有些许契合。此外,该文末尾段是对居民消费价格指数CPI这个概念的补充介绍。至此,第一篇文章大体上形成了一个“倒金字塔”的结构。

  而研判版的9月CPI报道,则通过“财政政策与货币政策”“实体经济与市场投资”两个小标题,将专家分析部分划分为两大块,结合内容来看,虽然各个专家分析段落之间逻辑性依然不强,但是两个小标题之下的段落却基本与小标题的主旨是一致的,显示出Dreamwriter在写作研判版文章时,对“财政政策与货币政策”“实体经济与市场投资”信息分类筛选的能力较强。

  在民生版的9月CPI报道中,同样采用了小标题的操作手法,分为“食品价格”“居住价格”,特别之处在于,在食品价格部分,引用了微博网友的评论“强烈要求统计部门将38元一只虾统计进CPI指数”,既使文章增添了趣味,又紧跟时事热点。精要版则仅采用了基本数据信息加上专家分析的模式,但同其他三篇基本一样的是,段落与段落之间的逻辑都不怎么连贯。

  (二)事实与观点的逻辑错位

  逻辑不连贯不仅是因为逻辑连接词或过渡句的缺失,从机器人写作技术上看,其事实加观点的信息筛选模式,以及观点的分散性都决定了这种叙事的逻辑问题。通过对四篇文章段落分布的统计(见表1),可以更清晰地看到这种特点。

  几乎所有段落都可以清晰地纳入新闻事实和观点这样的分类框架,且文章除了核心的基本数据信息外,其他的叙述大多通过直接引用专家或机构的分析来完成,且观点分析的段落要远远多于事实陈述的段落。虽然观点的多元特征以及事实的唯一性决定了他们数量的悬殊,但问题是,在机器人几乎瞬时发稿的情况下,新闻事实如何寻找与之对应的观点分析,或者说,这本身是一个悖论。毕竟,当新闻还没有出现的时候,就对其作出分析,这样的分析其本质是脱离了事实的,只能算作预测、研判。但机器人在加以引用的时候,并没有对此进行说明,也没有进行特别标注,就难免对观众产生误导,并很可能衍生出其他法律问题或经济影响。

  (三)现实与历史叙事相结合

  机器人的原创生产建立在搬运他人成果的基础上,而要想抢时间发稿,这样的成果必然是一种历史叙事与现实的结合,而这种结合背后的时间逻辑和因果联系应该理顺。通过对所有观点分析段落的溯源检索,可以更直观地看到机器人如何将历史与现实结合,重新进行叙事。

#p#分页标题#e#

  笔者使用搜索引擎对四篇文章所涉及到的20个观点分析段落的出处进行了检索,并对原文出处和发表时间进行了统计。以8月CPI报道为例,该文除了第一段引用了国家统计局数据外,6个观点分析段来自于机器人写稿前的近一个月的时间内,最早为8月3日和讯网的报道,最晚为发表当日9月10日,国家统计局的分析。10月14日发表的三个版本的报道除了引用国家统计局的数据信息外,14个观点分析段来源既有重合,又分布广泛。时间上,除了一个疑似来源于2013年10月14日的中国新闻网的报道,⑥其余基本发表于此前的一周内(见图1)。

  而在来源媒体方面,集中在几个证券类媒体上,甚至集中在同一篇报道中。比如精要版报道中共引用了四处观点分析,全部可以在《经济参考报》10月8日的一篇名为《机构预测9月CPI回落至1.8%左右》的文章中找到。而研判版的最后两段则都来自9月11日证券时报网的一篇报道。仔细分析这些来源集中的原出处,都建立在对CPI的预测上,即与机器人所写文章主题一致。但即便如此,历史逻辑与现实逻辑也难以连接,比如《经济参考报》的文章题目就预测9月CPI将回落,但正如机器人所引用的国家统计局的数据所显示的“9月CPI同比上涨1.6%”,在这样的背景下,即使机器人所引内容与最新官方数据不直接冲突,但严格来说,也是不准确的。而这样将历史叙事和现实拼贴式结合,有悖新闻叙事的真实性原则,而这也是Dreamwriter通过计算机语言实现的类型化所不完备的地方。

  二、大数据挖掘与新闻语言的局限性

  互联网的海量信息给数据挖掘提供了可能,写作内容有了一定保证,但语言的局限性依然存在。一方面,新闻写作对时效性要求较高,但机器人写作要想抢时间发稿,必然引用的是已有的材料,且由于版权和技术的限制,一些还未数字化的材料,以及未得到授权的材料,不能被机器人用来帮助写作;另一方面,新闻报道的新颖性,与词语表达的个性化,也很难完全匹配,靠程序来挖掘合适的词语和表述来契合新闻,对数据库的规模和语言表达规律的掌握要求都极高。

  通过对比Dreamwriter的作品和其引用内容的原文,可以发现二者相似度极高,基本可以认定为直接引用。在具体的句子结构上,也基本为主语、谓语、宾语三者构成的较为简单的句子,这意味着很难直接用于故事性较强的新闻的写作,显示出机器人新闻语言的局限性。同时,以数据为主的语言特点加之并不十分准确的逻辑联系,更突显出通过数据挖掘直接生成新闻语言的困难。

  而从读者的角度来看,在无法克服语言生冷、缺乏逻辑等问题的情况下,阅读文章的体验自然也很难保证。在腾讯网针对Dreamwriter三个版本的作品所进行的读者调查中(见图2),⑦选择精要版的占到了近四成,可见大部分读者本身也不愿意阅读太复杂的文本内容,但从题目中可以看出来,腾讯财经的调查目的也是为了将来推送更个性化的版本。也就是说,研判版的指导性、民生版的服务性等还要努力地去实现,而逻辑性和语言的局限性问题也必须想办法解决。

  三、结语

  尽管腾讯Dreamwriter的作品仍有不少问题,其叙事的逻辑缺陷和语言修辞的局限性,使得文本与真人记者作品的效果还有较大差距,但作为中文机器人进行新闻写作的开端,这样的尝试无疑具有时代意义,正如一些记者所担心的那样,在传媒行业深刻变革、媒介融合加快推进的当下,机器人记者所代表的传媒科技的变化究竟如何塑造行业格局和业务操作流程,如何影响记者自身的生存和发展,都是不得不面对的问题。

  (作者单位为暨南大学新闻与传播学院)

  参考文献:

  ①王曙晖:《从“快笔小新”上岗看传统媒体产业升级》,《中国报业》2015年第23期。

  ②喻国明:《“机器人写作”引发传媒新变局——“机器新闻写作”时代传媒发展的新变局》,《中国报业》2015年第23期。

  ③三篇文章题目分别为《精要版:9月CPI涨幅回落降准降息可能性增大》《研判版:9月CPI涨幅回落货币政策或维持宽松》《民生版:9月CPI涨幅回落住房租金保持上涨》。

  ④参见https://automatedinsights.com/,2016年1月31日访问。

  ⑤ 8 月CPI报道中的“其他”项,即为对CPI的概念介绍。

  ⑥即张玉玺,《9月全国住房租金价格继续上涨涨幅与上月持平》。年1月31日访问,Dreamwriter撰写的最后一段与该文中语句结构和表述高度相似,除了数字不同外,其余基本一致。

德迅网 » 机器人新闻写作的局限与不足
免责声明:本文来自互联网分享,不代表本网的观点和立场。