AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统
(资料图)
IT之家 8 月 2 日消息,谷歌研究团队正在进行一项实验,他们使用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该团队目前已经攻破 AI-Guardian 审核系统,并分享了相关技术细节。
IT之家经过查询得知,AI-Guardian 是一种 AI 审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他 AI 修改过,若检测到图片存在上述迹象,便会提示管理员前来处理。
谷歌 Deep Mind 的研究人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案,并将这些方案用于欺骗 AI-Guardian 的防御机制。
据悉,GPT-4 会发出一系列错误的脚本和解释来欺骗 AI-Guardian ,论文中提到,GPT-4 可以让 AI-Guardian 认为“某人拿着枪的照片”是“某人拿着无害苹果的照片”,从而让 AI-Guardian 直接放行相关图片输入源。谷歌研究团队表示,通过 GPT-4 的帮助,他们成功地“破解”了 AI-Guardian 的防御,使该模型的精确值从 98% 的降低到仅 8%。
目前相关技术文档已经发布在 ArXiv 中,有兴趣的小伙伴们可以前往了解,不过 AI-Guardian 的开发者也同时指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用,考虑到别的模型也会随之跟进,因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。
关键词:
相关阅读
-
AI 打败 AI:谷歌研究团队利用 GPT-4...
IT之家8月2日消息,谷歌研究团队正在进行一项实验,他们使用OpenAI的GP -
保靖:在时代大考中塑造可用之才
红网时刻新闻通讯员向科向伟张忠良黄媛湘西报道今年以来,保靖县以创建 -
涉案27万余元!永顺公安打掉一“地下六...
红网时刻新闻8月4日讯(通讯员张红军 陈瑞)近日,永顺县公安局重拳出 -
男子采购卫生巾捐到涿州安置点,网友称...
8月3日,河北省涿州市桃园区西坛村的李先生发视频称,自己一家人从灾区 -
富国银行:自助仓储REITs出现“买入机会...
智通财经APP获悉,富国银行分析师EricLuebchow表示,随着下半年形势好 -
来自杭州家纺业中小企业家座谈会的心声...
中国青年报客户端讯(中青报·中青网记者李剑平)“我是嘉兴市许村... -
从“0”到“1”北京银行“首贷”服务打...
图为本周三《专精特新研究院》第二季节目场景小微企业是各类经营主体中 -
V观财报|网宿科技:部分董事及高管拟减...
【V观财报|网宿科技:部分董事及高管拟减持公司不超0 09%股份】网宿科 -
安徽合力: 安徽合力股份有限公司2023年...
安徽合力:安徽合力股份有限公司2023年半年度业绩快报公告 -
正荣地产:前7月累计合约销售金额约107....
乐居财经李礼8月4日,正荣地产(06158 HK)公告,截至2023年7月31日止月 -
守牢防汛保供电力防线
受5号台风“杜苏芮”残余水汽北上和副高后部切变共同影响,连日来,... -
行署医疗保障局调研组深入塔河县调研
为全面掌握全区当前医疗保障工作情况,提高医疗保障工作决策能力和执行 -
低开高走!中国队残阵出战澳洲赛,男单...
北京时间8月4日,2023年澳大利亚羽毛球公开赛进入1 4决赛争夺阶段。中 -
知名“五常大米”主产区遭洪水侵袭,农...
每经编辑:程鹏台风“杜苏芮”持续北上后,给我国黑龙江省中南部地... -
存量房贷利率何时调降?郑州多家银行回应!
顶端新闻 河南商报记者张丽郑州存量房贷利率调整有望迎来实际落地。继 -
关于公开征求《上海市放射性废物豁免及...
为指导本市核技术利用单位履行放射性废物最小化的主体责任,推进相关单 -
今日起,郑州铁路受水害影响的担当列车...
郑报融媒把握正确舆论导向,关注百姓生活,侧重报道社会生活中的知识性 -
河北涞源部分高速路段土石崩塌 已基本...
每经AI快讯,受强降雨影响,河北保定涞源县境内的两条高速路十几处路段 -
偷渡缅甸当厨师不满薪水低,小伙加入电...
被高薪招聘厨师的短视频广告吸引偷渡至缅甸,后因不满足实际收入加入诈 -
甘泉:联合会商研判灾害风险部署防御措施
8月4日,陕西省延安市甘泉县出现强降水天气过程。甘泉县气象台4日下午