AI生成数据会“毒害”新模型,人工智能会“吃掉”自己吗?
随着人工智能(AI)生成的内容充斥互联网,它正在破坏未来模型训练的数据。当AI“吃掉”自己时,会发生什么?
得益于生成式人工智能的蓬勃发展,普通人也可随时使用计算机程序来生成文本、计算机代码、图像和音乐。与此同时,新的AI模型开发需要更多数据进行训练,这些由AI生成的内容可能很快会进入训练新模型的数据集。一些专家表示,这将在无意中引入错误,并随着每一代模型的诞生而不断积累。
越来越多证据显示,人工智能生成的文本,即使被引入训练数据集的量很少,最终也会对训练中的模型产生“毒害”。而目前,几乎还没有有效的“解毒剂”。英国爱丁堡大学信息学院计算机科学家里克·萨卡尔说:“虽然现在或几个月后,这可能还不是问题,但我相信,几年后这将成为一个必须要面对的问题。”
(资料图片)
AI生成数据“毒害”已真实存在
AI模型以自身产生的数据“毒害”自身的状况,可能有点类似于核试验带给人类的困境。
自1945年人类引爆第一颗原子弹后,数十年的核试验使得大量放射性尘埃进入地球大气层。而当这些空气进入新制造的钢材时,就会增高这些钢材的辐射性。
对辐射特别敏感的钢材应用而言,例如盖革计数器(一种用于测量放射性辐射的探测器),就必需使用低辐射金属。因此,人们只能抢购日益减少的低辐射金属,比如在旧船残骸中寻找1945年前生产的钢铁废料。
一些业内人士认为,类似的循环将在AIGC中重演——研究人员不得不寻找没有被“污染”的训练数据。
AI模型是如何“中毒”的?研究人员将一些由AI生成的语料作为训练数据,“喂”给一个正在训练的语言模型,然后使用它所输出的结果再来训练新模型,并重复这一循环。他们发现,模型每迭代一次,错误就会叠加一次。当人们要求第10次被训练出的模型写出有关英国历史建筑的内容时,它“吐出”的却是有关豺兔的一堆胡言乱语。
英国牛津大学机器学习研究员伊利亚·舒迈洛夫及其同事称这种现象为“模型崩溃”。他们在语言模型、生成手写数字和区分概率分布等模型中,都观察到了这种现象。“即使在最简单的模型中,这种情况也已经发生。”舒迈洛夫说,“我向你保证,在更复杂的模型中,也肯定已经发生了”。
在最近的一项预印本研究中,萨卡尔及其在西班牙马德里和英国爱丁堡的同事,用一种名为扩散模型的AI图像生成器进行了类似的实验:第一个模型可以生成可识别的花朵或鸟类,但到了第三个模型,所生成的图片就变得模糊不清了。
萨卡尔说,其他测试也表明,即使是部分由AI生成的训练数据集也是“有毒”的。他解释说:“只要有一部分训练数据源自人工智能所生成的内容,就会产生问题。”但更多具体细节还有待研究。
目前研究表明,模型在其数据的“尾部”(模型训练集中出现频率较低的数据元素)所受到的影响最大。由于这些尾部包含的数据与“标准”相去甚远,模型崩溃可能导致AI输出的结果失去“人类数据”特有的多样性。
令舒迈洛夫特别担心的是,这会加剧模型对边缘群体的既有偏见,“我们需要加紧努力,来遏制这种情况的发生”。
阻止“模型崩溃”尚需求解
无可辩驳的事实是,AI生成的内容已经开始进入机器学习工程师们所习惯于获取训练数据的领域。以语言模型为例:即使是主流新闻媒体也已经开始发布人工智能生成的文章,一些百科网站的编辑也希望使用语言模型为网站生成内容。
瑞士洛桑联邦理工学院(EPFL)学者维尼亚明·韦谢洛夫斯基认为,人类正处于这样一个拐点,“许多我们用来训练模型的现有工具,很快就会被AI生成的文本‘喂饱’”。
有迹象表明,AI生成的数据也可能通过其他途径进入模型训练。韦谢洛夫斯基及其同事通过统计分析发现,已有约1/3的医学研究摘要有ChatGPT生成文本的痕迹。
EPFL小组的研究成果于上个月发布在预印本服务器arXiv.org上。不过,机器学习工程师们也提出反驳。EPFL的研究生马诺埃尔·奥尔塔·里贝罗认为,使用ChatGPT对文本数据进行注释更加便捷且效果更佳。
面对模型崩溃的威胁,机器学习工程师该怎么办?答案可能相当于盖革计数器中的战前钢铁:已知不受(或尽可能不受)AIGC影响的数据。
例如,萨卡尔提出了采用“标准化”图像数据集的想法。这些数据集将由人类进行策划,因为人类知道这些数据集的内容仅由人类创作组成,并且可供开发人员免费使用。
一些工程师可能想打开互联网档案馆,查找AI热潮之前的内容,但舒迈洛夫并不认为使用历史数据是一种解决方案。首先,可能没有足够的历史信息来满足不断增长的模型需求。另外,这些历史数据不一定能反映不断变化的世界。
“如果你想收集过去100年的新闻,并试图预测今天的新闻,这显然是行不通的,因为技术和时代都已经发生了变化。”舒迈洛夫说。
因此,我们面临的挑战可能更为直接:从合成内容中分辨出人工生成的数据,并过滤掉后者。不过,即使有了这方面的技术,这也远不是一项简单的任务。正如萨卡尔指出的那样,如果Adobe Photoshop允许用户使用人工智能生成技术编辑图像,那么这样编辑出来的图像到底是不是人工智能生成的呢?
作者:杨馥溪/编译
编辑:许琦敏
责任编辑:任荃
*文汇独家稿件,转载请注明出处。
关键词:
相关阅读
-
AI生成数据会“毒害”新模型,人工智能...
随着人工智能(AI)生成的内容充斥互联网,它正在破坏未来模型训练的数 -
关于新饲料、新饲料添加剂申报,必看(三)
前两期的文章介绍了审批咨询和初审的相关流程和材料准备情况,那么初审 -
全国首家航空应急救援主题科普研学中心...
8月22日,湘江航空应急救援科普体验中心,学生参观体验直升机。8月22日 -
中信证券:海外CXO生命科学上游公司投融...
8月24日消息,中信证券研报表示,选取了14家具有代表性的海外CRO CDMO -
北向资金净卖出超30亿元
证券时报网讯,截至9:50,北向资金合计净卖出34 79亿元。其中,沪股通 -
单产小幅增长 国家统计局解读早稻生产情况
原标题:单产小幅增长国家统计局解读早稻生产情况据国家统计局网站消息 -
有奖知识竞赛开启!文旅赋能亚运,让世...
潮新闻客户端记者高方文设计黄艺点击直达知识竞赛活动》“哪座亚运... -
菜鸟驿站签收了还能拒收吗 快递被菜鸟...
1、菜鸟驿站代收可以拒收,但是一定要及时和菜鸟驿站负责人联系表示快 -
场景化阅读 《铁杵磨针》如何讲述李白...
如果“场景化阅读”变得更加具象,会有哪些新的体验?日前,淘?器... -
今年全国早稻总产量2833.7万吨,增长0.8%
国家统计局23日发布的数据显示,2023年全国早稻总产量2833 7万吨(566 -
神仙道3青龙阵容怎么搭配
小编为大家带来了神仙道3青龙阵容推荐攻略,朋友们都想知道游戏中的角 -
书记调研手札丨柘林镇:传承柘林历史文...
调查研究是我们党的传家宝,是做好各项工作的基本功。当前,奉贤区正深 -
北京房山受灾学校抓紧修复重建 确保学...
此次因强降雨引发的洪涝灾害中,北京市房山区有152所中小学和幼儿园不 -
乡村振兴看内蒙古|小毛驴“养”出亿元...
日前,记者走进位于赤峰市巴林左旗富河镇乌尔吉村的肉驴养殖产业园区, -
日媒:东京电力公司称福岛核污染水将于2...
据日媒当地时间24日报道,东京电力公司当天称,已对准备排入海洋的核污 -
妻子“炫富式”举报丈夫 真相是什么
8月22日,网络流传一则消息显示,南方电网广州供电局员工王振斌被其妻 -
社保基金高比例持有科创板股名单
证券时报网讯,证券时报•数据宝统计显示,社保基金最新出现在30只科创 -
8月23日基金净值:易方达均衡成长股票最...
8月23日,易方达均衡成长股票最新单位净值为0 9522元,累计净值为0 952 -
8月23日基金净值:交银阿尔法核心混合A...
8月23日,交银阿尔法核心混合A最新单位净值为3 0206元,累计净值为3 85 -
普里戈任坠机身亡,现场一片火海!拜登...
当地时间23日,一架私人飞机在俄罗斯特维尔州坠毁,机上共载有10人,其