(图\郭嘉亮\Midjourny )
2023年9月,美国《圣路易斯邮报》决定让微软的必应聊天人工智能接受考验,给了它一个提示:“写一篇报纸社论,论证人工智能不应被用于新闻业。”结果让该报编辑部松了一口气:人工智能引擎提出了若干相当有说服力的论据,证明人工智能不应该出现在评论版上。
机器人认为,虽然人工智能“可能有一些好处”,但它“也对新闻质量、诚信和伦理构成严重威胁”。“人类记者有激情、好奇心和创造力。人工智能无法复制这些品质。”“此外,人工智能还可以创建深度伪造品……可用于诽谤、勒索或影响公众舆论。”
该机器人指出,与人类不同,人工智能无法判断道德和事实的对错,无法保护消息来源,也无法遵守任何专业标准。
文章并且阐述了人工智能如何对记者的生计构成威胁,并指出平台几乎可以完成人类记者完成的所有任务,“比人类记者更快、更便宜、更高效”。然而,机器人指出,人工智能无法完全取代新闻报道中的人为因素。
一个月之后,《奥兰多前哨报》决定效仿《圣路易斯邮报》的实验,这次的提问对象是谷歌新推出的人工智能引擎Bard,提示也稍加调整:“请以第三人称写一篇550字的社论,解释为什么佛罗里达州的报纸应该警惕人工智能生成的观点文章。”
Bard给出的答案如下:“人工智能无法理解人类社会的细微差别或我们面临的问题的复杂性。人工智能可以生成语法正确且事实上准确的文本,但它无法理解它所使用的单词的含义。人工智能也无法理解言语的情感影响或其写作的潜在后果。”
人工智能生成的特约评论和社论的吸引力和信息量都会降低。这些内容本来通常是由充满热情、知识渊博、观点鲜明的个人撰写。而人工智能只是一台被编程来生成文本的机器。因此,它写的东西可能会平淡无奇、无原创性且缺乏洞察力。
必应和Bard的表现令人刮目相看。很多人类评论员的看法也大致不出左右。比如,倡导组织“美国原则计划”的政策主管乔恩·施韦普就指出,“人工智能不是人类,它没有独特的想法”。施韦普说: “它无法进行实地报道,无法爆料其他地方尚未报道过的新闻,甚至无法理解撰写一个人性化故事的想法。”
必应的结论是,人工智能不应该在新闻业中使用,它呼吁媒体公司避免这种做法,而“支持并赋予人类记者权力”。对照一下施韦普的说法:“由于企业总是寻求削减成本并最大限度地提高‘效率’,人工智能将不可避免地取代许多报道工作,这将损害整个新闻业,并限制人们成为知情公民的能力。”
问题的焦点正在这里:人工智能认为机器人不应当充斥当代新闻编辑室,但新闻编辑室自己却在不断把权力移交给加州的某个芯片组。这是为什么呢?如果主要出版物都采用机器学习工具来获取内容,最终,读者怎么知道其所阅读的内容的作者,真的是一个人而不是一个机器人?照此发展下去,人工智能对记者的未来意味着什么呢?
十年发展:自动化、增强和生成
在过去的一年里,你很可能读过一个由机器人编写的故事。无论它是一篇体育报道、一份公司收益报告,还是一篇关于谁赢得了选举的故事,其背后的作者都有一个响亮的称呼—生成式人工智能。即使曾经广受尊敬的出版物也被发现使用生成式人工智能工具,而且结果往往不太理想,比如BuzzFeed、CNET、G/O Media和《体育画报》。
媒体使用人工智能不完全是新鲜事。一段时间以来,媒体一直在尝试使用人工智能来支持和制作新闻报道。例如,美联社和路透社等通讯社此前曾尝试应用自动文章撰写工具,可以根据收益报告或体育比分等数字数据,生成示意性新闻报道。美联社甚至自豪地宣称,自己是“最早利用人工智能的新闻机构之一”。不过,值得指出的是,美联社的自动生成材料似乎基本上是在预先确定的格式中填空,而CNET的生成式报道中更复杂的措辞表明,它使用的是更类似于OpenAI的GPT-3一类的大语言模型。
追溯十年的新闻编辑部前沿技术应用史,可以将人工智能创新分为三波:自动化、增强和生成。
第一波,重点是利用自然语言生成技术自动处理数据驱动的新闻报道,如财务报告、体育比赛成绩结果和经济指标等。以美联社为例,自2014年以来,这家领先的通讯社一直使用人工智能来生成上市公司的收益报告摘要。随后,它又增加了一些体育赛事的自动预览和复述报道,从而扩大了自动化内容的提供范围。此外,美联社还利用人工智能技术帮助转录新闻发布会等现场活动的音频和视频。
但如前所述,美联社的系统相对粗糙,基本上是在预先格式化的报道中插入新信息。这显示,人工智能最适合使用高度结构化数据的故事,这是它为什么能在财务报道和体育故事中大显身手的原因。这也是为什么彭博新闻是这种自动化内容的首批试水者之一,因为金融数据是频繁计算和发布的。仅在2018年,彭博社的Cyborg程序就发表了数千篇文章,将财务报告转化为新闻报道,就像商业记者一样。
这一波应用为新闻编辑室带来了很多好处。其一,节省时间和资源。美联社估计,人工智能可以帮助记者节省大约20%的时间来报道公司,并且可以提高准确性。记者由此可以专注于文章背后的内容和故事讲述,而不是事实核查和研究。美联社的网站指出:“在使用人工智能之前,我们的编辑和记者在重要但重复的报道上花费了无数资源”,而这“分散了对影响力更大的新闻报道的注意力”。
其二,除了解放记者的自由之外,AI技术还让美联社能够创作更多相似内容。 自动故事生成令新闻编辑室的运作更具成本效益,因为机器人可以生成比人类更多的故事。一个统计显示,美联社利用人工智能将企业盈利报道的范围从 300家公司扩大到4000家。
其三,自动化技术并没有取代记者,而是减少了他们的一部分工作量。美联社在2022年发布的一项调查中发现,摘要是需求最大的人工智能工具之一,其他需求还包括向照片和故事添加元数据、转录采访和视频、编写隐藏式字幕,以及许多在数字新闻时代成为琐事的工作。这说明人工智能技术良好地扮演了人类记者助手的角色。
当重点转向通过机器学习和自然语言处理来分析大型数据集并揭示趋势来增强报道时,第二波浪潮就到来了。汤森路透自2018年以来一直使用内部程序Lynx Insight来检查市场数据等信息,以找到可能为记者报道的故事模式。阿根廷报纸La Nación于2019年开始使用人工智能来支持其数据团队,然后与数据分析师和开发人员合作建立了人工智能实验室。
还有一些公司创建了内部工具来评估人类的工作,比如《金融时报》的机器人会检查其报道是否引用了太多男性的观点。国际调查记者联盟让人工智能处理数百万页泄露的金融和法律文件,以识别值得记者仔细研究的细节。
《华盛顿邮报》使用人工智能根据读者的兴趣和偏好对新闻进行个性化发布。 例如,它在主页上提供了一个个性化的“为你”部分,订阅者或注册用户可以选择他们的主题偏好。读者的阅读历史记录和其他表现数据会进一步增强推荐。
在增强阶段,人工智能大量发挥了为人类记者跑腿的功能。Heliograf可以检测金融和大数据趋势,以为记者的报道提供提示。《福布斯》使用名为Bertie的机器人为记者提供新闻报道的初稿和模板。《洛杉矶时报》使用人工智能根据美国地质调查数据报告地震,并跟踪洛杉矶市发生的每起凶杀案的信息。由机器创建的名为“凶杀报告”的网页使用了机器人记者,能够在其报告中包含大量数据,包括受害者的性别和种族、死因、警官参与情况、所在社区和死亡年份。
当前方兴未艾的第三波浪潮是生成式人工智能。它由能够大规模生成叙事文本的大型语言模型提供支持。这一新的发展为新闻业提供了超越简单的自动化报告和数据分析的应用。现在,从业者可以要求机器人就某个主题写一篇更长、更平衡的文章,或者从特定角度写一篇观点文章(如同本文开头所举的两篇机器人社评),甚至可以要求它以知名作家或出版物的风格来这样做。
然而,虽然生成式人工智能有助于综合信息、开展编辑和为报道提供数据,但我们今天看到的这项技术仍然缺少一些关键技能,阻止它在新闻业中发挥更重要的作用。正因如此,生成式人工智能无法满足读者在阅读新闻媒体时所寻求的更多分析或更深入的主题刻画。而且,它的大量应用还带来了一系列新问题。
生成式人工智能的陷阱
虽说长期以来,一些新闻机构一直在使用人工智能生成有关报道,但与记者生成的文章相比,它们仍然只占新闻业提供服务的一小部分。生成式人工智能可能会改变这种状况,使任何用户而不仅仅是记者能够在更大范围内生成文章,如果对其不加以仔细编辑和检查,极有可能会传播错误信息,并影响人们对传统新闻业的看法。
科技新闻网站CNET于2023年早些时候宣布,由于生成的文章不仅错误百出,而且充斥着抄袭行为,该公司将暂停使用人工智能撰写故事。
同年6月底,G/O Media(旗下拥有Gizmodo、The Onion和Quartz等)宣布,将开始在其众多出版物中发布人工智能生成的内容,作为一个“适度的测试”。 而在Gizmodo发表的第一篇人工智能生成的文章中,该网站的“Gizmodo Bot”完全没有达到目标。这篇帖子名为“《星球大战》电影和电视节目的时间顺序表”,写得很糟糕,而且充满了事实错误。
除了写得不好之外,很明显这篇文章从来不是面向人类读者的。相反,策略是欺骗搜索算法,使其排名靠前—至少一开始,Gizmodo机器人生成的文章被谷歌显示为“星球大战电影”查询的最佳结果。从很多方面来说,这是一个令人沮丧的结果:机器人主要为机器人编写内容,而人类的角色,无论是作者、编辑还是读者,在这个过程中都逐渐被削弱。
11月,《体育画报》被曝一直在以人工智能生成的头像为假作者的署名下炮制内容。这引发了人工智能生成内容与人类创造内容的分界线是否应明确划定的问题。大型新闻网站的惯例是,明确将作者标记为机器人,或在文章的末尾声明人工智能作者的身份,无论美联社或《洛杉矶时报》都是这样做的。
然而,早在2023年1月,CNET就被发现一直在以“CNET Money Staff ”的可疑署名悄悄发布人工智能生成的文章。只有单击署名并阅读一个小的下拉披露菜单后,读者才会发现这些文章不是由人类撰写的。这是一种相当狡猾的方式,尤其对于一个如此知名的品牌而言。
以《体育画报》事件为例,如果出版商未能明确标明人工智能的使用,都构成基本媒体伦理的失败。难怪《体育画报》丑闻的曝光引发了媒体的广泛报道和杂志社内部工作人员的愤怒。非营利组织“人工智能政策研究所”的最新民意调查发现,80%的美国人认为将人工智能内容呈现为人类内容应界定为非法。
当人类记者担心新技术可能会导致失业时,许多媒体公司坚持测试人工智能新技术。它们似乎被廉价、可扩展且有利于搜索引擎优化的内容所吸引—人工智能撰写的文章,旨在利用搜索引擎优化来玩转谷歌搜索,从而可以在网页上贴上利润丰厚的联盟广告。谷歌在很大程度上是同谋,因为它通过允许未经充分研判的人工智能生成内容获得较高的排名来奖励这些努力。
到2023年年底,据NewsGuard的统计,已出现数百个部分或全部由人工智能生成的用多种语言编写的网站,它们模仿真实的新闻网站,但实为内容农场(指低质量网站通过炮制大量标题诱饵文章以优化广告收入),是为了从程序化广告中获取收入而设计的—程序化广告通过算法在网络上投放,为许多媒体提供资金流。
媒体学者曾经猜测,随着越来越多、越来越强大的人工智能工具亮相并向公众开放,这些工具会被用来创建整个新闻网站,而如今这样的猜测已成为现实。此类网站往往不披露所有权或控制权,但却生产大量与政治、健康、娱乐、金融和技术等各种主题相关的内容,有些网站每天发布数百篇文章。
在如此利用人工智能获利的过程中,读者被灌输了不正确的、抄袭的或其他缺乏灵感的内容,而作者和编辑则被迫追查机器人制作故事的错误。谷歌搜索则陷入了人工智能垃圾生成的循环,不断从旧的垃圾中产生新的垃圾。然而,鉴于将人工智能用于此目的的成本很低,新闻机构很可能会继续这样做。
确保“人在回路中”
从受众分析到程序化广告和自动故事创作,媒体公司使用人工智能已有一段时间了。然而,这项技术正在迅速成熟,并给媒体领导者以新的创意和商业可能性的启发。
世界各地的新闻机构,都打算探索人工智能的潜在用途,以了解如何将其负责任地应用于分秒必争、准确性至关重要的新闻领域。但这一过程充满了挑战。经过编辑策划的新闻页面,是一个有价值且讲究深思熟虑的产品。而人工智能生成的内容最明显的局限性之一是缺乏真正的创造力。它可以根据从现有数据中学习的算法和模式进行操作,但它不具备想象力思维或产生真正独特和创新想法的能力。
必须承认,即使经过大规模数据训练,人工智能最好还是只帮助处理段落,而不是整个故事。语言模型并非知识模型,它们永远不应被用来写故事,而应用来帮助记者完成某些任务。比如,这些模型非常适合执行传统的自然语言处理任务,例如摘要、释义和信息提取。
记者和编辑不应抗拒使用这样的工具,原因是,他们对这些工具的运作方式了解得越多,它们就越不像一个神奇的盒子,而使用者就越能以明智的方式作出相关决定。
据报道,谷歌正在测试一种名为Genesis的人工智能工具,可以根据时事细节等生成新闻内容或帮助记者探索不同的写作风格。谷歌正在向《纽约时报》《华盛顿邮报》和新闻集团(拥有《华尔街日报》和《泰晤士报》)等媒体推荐这款工具,目标是让记者利用新兴技术来提高他们的工作和生产力。谷歌特意将这些辅助工具与Gmail和Google Docs中提供的辅助工具进行了比较,强调它们无意取代记者在报道、创作和事实核查文章中的重要作用。
为了避免CNET等媒体经历的陷阱,新闻机构和谷歌等科技公司必须优先考虑在新闻业中基于伦理和负责任地实施人工智能。虽然人工智能工具无疑可以在记者工作的各个方面提供帮助,但为了确保准确性、可信度和伦理标准,人类在整个过程中的监督和干预仍然至关重要。
人工智能在新闻编辑室的出现不应被视为对新闻业的威胁。相反,它应该被视为一种机会,可以增强记者的能力,并赋予他们提供更具影响力的报道的力量。随着人工智能技术的进步,新闻机构、科技公司和记者需要共同努力,制定将人工智能融入新闻业的指导方针、道德框架和最佳实践。这种协作努力将确保人工智能仍然是增强记者工作的工具,而不是用以取代支撑新闻领域的人性化和批判性思维。