摘要:在里约奥运会上,今日头条的一个名叫“张小明”的新闻机器人让读者眼前一亮。2秒钟写稿,拟人化语言,智能配图......近些年来,人工智能在新闻领域的应用越来越频繁,不少人惊呼连记者这个行业都要被机器化了么?本文将对当前新闻写作机器人的应用情况、应用优势和不足进行说明和探讨,并对其发展前景作出展望。
关键词:新闻写作机器人;xiaomingbot;数据处理;机器学习
一、当前新闻写作机器人的发展概况
在前不久结束的里约奥运会上,一个名为“张小明(xiaomingbot)”的新闻机器人小试锋芒。在奥运会开始后的13天内,共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道,每天30篇以上。不仅囊括了从小组赛到决赛的所有赛事,且其发稿速度之快,也让人惊讶——几乎与电视直播同时。
“张小明”的核心——“写稿模块”由今日头条媒体实验室同北京大学计算机所万小军团队共同研制。其工作原理是结合最新的自然语言处理、机器学习和视觉图像处理的技术之后,通过语法合成与排序学习生成新闻。 作为第二代新闻机器人,“张小明”不仅可以通过检索图片自己选择图片,还能模仿人类的语气,使用诸如“笑到了最后”、“实力不俗”等词语(图1)。
图1
新闻机器人,或者叫AI机器人。是人工智能在新闻领域的最新应用。其实,在“张小明”出现以前,新闻机器人就已被世界上的主流媒体所关注并加以使用。例如,国外有美联社的WordSmith、华盛顿邮报的Heliograf以及纽约时报的blossom等。国内则有新华社的快笔小新、腾讯的dreamwriter、第一财经的DT稿王等。(表1)这些写稿机器人无一例外都运用到了大数据处理技术。首先通过数据采集,将其录入数据库中,在将这些数据按照语句出现频率以及新闻要素关键词进行分析加工。制作出一套符合该媒体发稿风格的模板,然后将新闻元素5W1H代入其中,一篇新闻消息就这样产生了。
表1
而这次成功抢镜的“张小明”是今日头条实验室在里约奥运会开幕一周前研发的AI机器人。它通过对接奥组委的数据库,可以在极短的时间内完成消息撰写,赛事汇总等工作。张小明属于第二代写稿机器人,比起他的前辈们,写稿速度更快——2秒内完成稿件并上传至媒体发布;拟人化程度更高——根据比赛选手的排名,赛前预测与实际赛果的差异,比分悬殊程度,可以自动调整生成新闻的语气;发布稿件类型增加——不仅可以发布赛事消息,还可以生成整个比赛的赛事简报;图片识别筛选——可以识别图像,在文章中选取插入赛事图片,图文并茂更加生动形象。
二、机器人写稿的优势:
1、提升发稿速度,全天候新闻热点监测,提高新闻的时效性
时间对于新闻的意义非同小可,尤其是在当前网络新闻环境之下,可谓是分秒必争。新闻机器人通过之前学习相似稿件的写作模式,凭借其快速的信息处理能力,可以在极短的时间内就写出一篇符合该媒体写作风格的作品。以“小明”为例,在奥运会期间其一篇稿件的完成时间约在2秒左右,也就是说比赛刚一结束,稿件就已经写好发布了。这让其在发稿速度上要快其他媒体一步。其次,发出的稿件可以第一时间发布到社交媒体上,让其消息在众多类似消息中脱颖而出,更容易受到用户的关注。最后,记者在长时间的报道压力下可能忙中出错,而身为机器“小明”可以实现全天候24小时监测赛事热点,既不漏题同时也保证了记者有充分的精力应对关键比赛的详细深度报道。
2、新闻更加全面,互联网端新闻报道的长尾效应突出
头条实验室负责人李磊博士介绍,“张小明最大的意义在于,面对奥运会这样同时举行上百场比赛的综合赛事,记者很难关注到每一场比赛,而机器人可以任劳任怨的为每一场比赛报道,无论这场比赛多么冷门和不重要。传统新闻理论并不认为这些冷门比赛或者热门比赛(比如乒乓球)的前几轮小组赛有新闻价值,可是通过我们的平台测试,我们发现对冷门场次的报道任然有可观的阅读量。” 这说明在互联网平台上新闻报道的长尾效应十分突出,即由于受众基数巨大,即使小众用户其数量也十分可观。同时基于互联网平台的新闻传播对个性化新闻需求的满足也有利于用户黏性的增长。这也符合未来定制新闻,分众化新闻的大趋势。
3、使记者从快新闻中解脱出来,着力对深度新闻的打造
当前,新闻消息的生成和传播速度越来越快,新闻的时效性也要求越来越高,但与之相对的一则新闻消息的影响力却大不如前。一方面,新闻的半衰期越来越短,另一方面快餐式的新闻充斥网络。媒体行业的激烈竞争使得记者疲于应付千篇一律的消息,即便如此,漏题现象也时有发生。在这些消息上使用机器人写作,使得记者可以从疲于奔命式的抢新闻中解脱出来,对事件背后的新闻线索进行深入挖掘和批判性地思考。从长远看来,深度报道对新闻界是有百利而无一害,甚至可以让快新闻逐渐慢下来,也给予读者思考与品读的时间。
4、面对巨大数据量处理时减少出错量
对于经济、体育类的新闻,常常有许多数字、数据需要整理汇总。人类记者在处理这些数字、图表时,常常因为数据量大而忙中出错。但是,机器人凭借其超强的运算能力,可以处理海量数据,且不容易出错。
5、不带有个人情感,文章更加客观
机器人新闻不带有任何人类情感,文章的生成完全依赖于数据。比如在赛事汇总上,不会因为喜爱某支球队而厚此薄彼。而是严格按照数据,客观地陈述事实。在某种程度上,机器人新闻更接近新闻上对客观性的要求。
三、目前机器人写稿存在的不足:
1、机器人对信息的深度理解不够
新闻机器人所能做的只是在现有数据库的支持下,对文章进行词汇和语句的抓取,然后进行排列组合,就像在进行一个复杂的填字游戏那样。机器人对文章的深度理解能力还远远不能与人类相提并论。例如,在张小明于8月16号关于奥运会男乒半决赛的一篇报道中,它写道:绝望之际,失败女神朝其抛出了橄榄枝。(图2)机器人记者显然没能领会橄榄枝在自然语言中的含义。由此看来虽然身为第二代新闻机器人,在语义理解上仍具有很大缺陷。但随着机器学习能力的不断提高,相信这种低级错误是完全可以避免的。
图2
2、扁平化新闻千篇一律,缺乏亮点和重点