自对齐能否驾驭“狂奔”的AI

当前位置：首页 > 资讯 > >正文

自对齐能否驾驭“狂奔”的AI

来源：科技日报时间：2023-05-23 06:24:19

◎本报记者翟冬冬

自Open AI推出ChatGPT大模型以来，AI大模型进入到公众视野，探讨热度飙升，百度、腾讯、阿里等互联网巨头也纷纷公布了其对AI大模型的投资与布局路线图。

然而，在一片火热中，也有不少科技巨头表达了对AI大模型的担忧。利用人工智能写论文、制作虚假图片……在给人类带来便利的同时，“稚嫩”的人工智能技术也暴露出许多安全隐患问题。据媒体报道，被誉为“人工智能教父”的杰弗里·辛顿已从谷歌辞职，只为完全自由地谈论AI大模型等人工智能技术所带来的危险。

(资料图片)

狂野生长的AI大模型，真的管不住了吗？来自美国卡内基梅隆大学语言技术研究所、国际商业机器公司研究院等机构的研究人员提出了一种全新的方法——自对齐。该方法结合了原则驱动式推理和大模型的生成能力，从而使用极少的人类监督便能实现AI大模型的“自我监管”。

和人类价值观“对齐”

目前，即便是最先进的AI大模型，也无法实现自我监管，仍需要依赖人类指令以及注释进行相应的调整。

“生成式人工智能可以被看作一个预测工具，它主要依靠大量数据样本来预测正确答案。”清华大学交叉信息研究院助理教授、人工智能国际学术交流项目主任于洋表示，所有基于数据统计的人工智能模型，对于“答案”的预测都必然有一定的随机性，而这种随机性所产生的偏差一旦与人类价值观、伦理观、道德观以及法律法规等相悖，就需要对该模型进行监管、完善。计算科学工作者致力于消除这类偏差，尽量使之与人类的价值观、伦理、法律、公序良俗等相符，这被称为“对齐”。

然而，从统计学的角度看，AI大模型一定会“犯错”。因此，AI模型对齐的监管，不应追求获得一个不犯错的完美AI大模型，而是要管理AI大模型产生违规错误的风险。“例如，对话类AI大模型在其对话中，是否会大量出现针对某个地区的地域歧视。”于洋举例道，对于AI大模型的监管，就是为了避免这类内容出现的概率过高、避免模型的答案系统性发生整体倾向这类偏误。

然而，如果AI大模型严重依赖人类监督，会造成成本过高、可靠性不足、存在偏向性等问题。因此，以最少的人类监督实现AI大模型的自我监督成为构建AI大模型的关键。

为了解决这一难题，研究人员提出了一种自对齐的新方法，仅需一个人工定义的小型原则集（规则），便能引导AI大模型生成答复的正确导向，且能显著减少对人类监督的需求，使其几乎无需任何额外注释。AI大模型可以自对齐的设计目标是开发出有用、可靠且符合人类道德观念的AI大模型，包括在生成答案时可以反对用户的有害询问，并且为表示反对的背后原因提供解释。

值得一提的是，此前一些AI大模型至少需要5万条注释，而整个自对齐过程所需的注释量少于300行，监督效率非常高，极大地降低了AI大模型对人类监管工作的需求。

把“打骂”变为“讲道理”

那么，未来AI大模型是否可以实现完全的自我监管？于洋表示，AI大模型监管的主要方式必然是自动化、机器化、算法化的，因为AI大模型依赖海量数据支撑，仅凭人工监管是不现实的。但完全的自我监督不太可能实现，这是因为即使AI学会了相应的人类规则，但它和人类所掌握的规则数量仍然无法比较。同时，人类的思维以及逻辑推理过程具有极高的复杂性，也是AI大模型难以真正“理解”人类的原因之一。

于洋举了个例子，现在的AI大模型监管就好比教育孩子，现有的人工对齐技术方案，其实都是在“打骂”孩子，也就是用奖励和惩罚的方式训练AI什么能做、什么不能做。而真正的教育，是要对孩子讲道理，了解为什么有些事情不能做，即要让AI理解背后的逻辑，理解人类的评判标准。这是一件很难的事情，目前大多数的AI大模型的训练和对齐技术的开发，还停留在“打骂”阶段，要从“打骂”变成“讲道理”，还有很长的路要走。

“除了技术人员开发教育AI合规的技术外，监管当局也必须制度化、系统化地从社会合规和社会影响等方面对AI大模型进行多维度的审计和监管。”于洋进一步解释道，相关行业及管理部门，需要对AI大模型违背人类价值的概率，有一个系统化的评估，并根据AI大模型相关产业的发展现状，调整监管手段，有针对性地提出监管方案，建立动态、敏捷响应技术前沿变化的监管体系。企业也要建立专门针对AI大模型的监管部门，来审核AI大模型中是否包含自我监管机制，以及具体到每一个模块将带来哪些影响，以此尽量降低AI模型的违规风险。

此外，于洋还建议，人工智能的治理，也需要大量的公众参与，因为和训练模型寻找漏洞相比，在大量应用实践中去发现漏洞、完善AI大模型，显然更加高效，也能显著降低AI大模型开发成本，推动AI大模型在各行各业的广泛应用。

X 关闭

最近更新

自对齐能否驾驭“狂奔”的AI

2023-05-23 06:24:19

资讯
上海：打造元宇宙关键技术创新策源高地

2023-05-23 04:43:15

资讯
已检查 16.6 万家餐厅！广东制止餐饮浪费专项行动取得初步成效

2023-05-23 02:05:34

资讯
蓝色音乐巴士亮相长沙

2023-05-22 23:24:54

资讯
污泥在燃煤电厂上演“变形记” 全球新消息

2023-05-22 22:18:11

资讯
5月22日机构最看好的10只股票

2023-05-22 21:15:16

资讯
伟大的4-0！陈梦拒绝爆冷，后3局神了：仅丢7分，约战伊藤美诚

2023-05-22 20:27:42

资讯
动态：黄埔推出“高质量发展30条”：奖励增量上不封顶专门设置“引进外资奖”

2023-05-22 19:51:32

资讯
两市成交跌破8000亿！白酒股突成热点是短期反弹还是触底反转？

2023-05-22 19:14:05

资讯
网红从蹭戛纳红毯变正规军，他们集体翻身了？

2023-05-22 18:24:52

资讯
热门：房子施工知识：装修都有哪些风格五种当下颇受追捧的装修风格

2023-05-22 17:57:33

资讯
【环球播资讯】rankeq与rank区别 rankeq和rank的区别

2023-05-22 17:23:23

资讯
苹果至少有4位顶层高管参与MR头显项目前首席设计官也有参与

2023-05-22 16:41:30

资讯
刘晓燕民间小调大全欢刘晓燕民间小调大全|世界最资讯

2023-05-22 16:04:31

资讯
灰指甲不痛不痒，不治可以吗？环球速看料

2023-05-22 15:36:17

资讯
先锋领航：美国与欧元区利率或将持续高企，通胀仍为央行政策焦点-世界焦点

2023-05-22 15:01:57

资讯
派出所前划伤妻子男子当场被擒伤者无生命危险

2023-05-22 14:13:55

资讯
为企业健康发展营造良好环境！TA们将公共法律服务带进楼宇

2023-05-22 13:56:23

资讯
孙雨朦身高孙雨朦_全球热讯

2023-05-22 12:01:43

资讯
5月22日建材类午间行情分析播资讯

2023-05-22 11:42:08

资讯
第二届湖北数字公益节首日全省筹集善款6900多万元社区居民踊跃捐款市县筹款很热烈|天天热文

2023-05-22 11:08:01

资讯
韩国5月前20天出口同比减16.1% 世界今亮点

2023-05-22 10:36:24

资讯
环球简讯:苏丹冲突双方达成7天停火协议 22日起生效

2023-05-22 10:05:39

资讯
节约用水，你的城市做了什么-世界动态

2023-05-22 09:29:28

资讯
杜康：黄金反弹不是反转，早盘1985压力空！-观焦点

2023-05-22 09:08:47

资讯
全球热消息：长虹能源：5月19日融资净买入5693元，连续3日累计净买入13.58万元

2023-05-22 08:19:47

资讯
算力为王城市发展拼“脑力”

2023-05-22 07:56:00

资讯
世界百事通！概念动态|涛涛车业新增“深股通”概念

2023-05-22 06:15:33

资讯
魔女宝鉴_关于魔女宝鉴简述-全球快讯

2023-05-22 04:57:40

资讯
【世界播资讯】花秋

2023-05-22 01:58:41

资讯
环球今头条！请问哪位有So_Happy Together的歌词谢谢！

2023-05-21 22:47:18

资讯
CCTV5直播:林高远输给张本智和？国乒5人出战附直播赛程表-世界视点世界信息环球今亮点_聚焦

2023-05-21 21:36:41

资讯
沃森生物：RQ3013 IIIb期临床试验主要结果及III期效力临床试验期中分析主要结果均已公告

2023-05-21 20:09:17

资讯
锦和商管(603682.SH)：截至目前公司在管项目73个，在管面积逾135万平方米焦点热议

2023-05-21 19:12:15

资讯
环球观点："B站91亿不够养UP主"登热搜第二网友抱怨短视频太多

2023-05-21 17:58:36

资讯
摸鱼什么意思网络用语摸鱼是什么意思网络语

2023-05-21 17:08:16

资讯
热点追踪 | 新项目投资前景各异

2023-05-21 15:59:45

资讯
ST大集：正在推进战略投资人引进工作

2023-05-21 15:13:46

资讯
热讯：【原神同人】身为花之骑士，自然要守护好纳西妲

2023-05-21 14:01:52

资讯
最资讯丨扇贝做法大全简单好吃_扇贝做法大全

2023-05-21 13:02:11

资讯
什么的果汁好喝又简单-环球消息

2023-05-21 11:45:23

资讯
热讯：当“AI孙燕姿”唱起《好汉歌》

2023-05-21 10:37:56

资讯
陈鸿斌| 日本：这样怎么打得过美国？_环球新消息

2023-05-21 10:01:39

资讯
迪士尼有什么好玩的好吃的_迪士尼有什么好玩的环球要闻

2023-05-21 08:45:36

资讯
成都锦江宾馆_关于成都锦江宾馆的介绍

2023-05-21 07:45:37

资讯
供需失衡，锂价暴跌重挫上游矿企，行业洗牌去库存过程仍在继续_百事通

2023-05-21 06:28:42

资讯
全球最资讯丨“七国集团才是战争元凶！” 日本民众在广岛举行集会，与警察爆发激烈冲突

2023-05-21 04:38:36

资讯
2020年王者荣耀冬季冠军杯即将于1月7日吹响战斗号角天天快看

2023-05-21 01:12:44

资讯
女朋友应该叫男朋友什么昵称_适合叫男朋友的昵称-天天滚动

2023-05-20 22:27:55

资讯
厦金航线复航后运送旅客突破10万人次

2023-05-20 21:21:28

资讯
赶在中国入场前，美国将协议拍在乌克兰脸上：把整个国家打包出卖焦点滚动

2023-05-20 20:11:32

资讯
第四届上海创新创业青年50人论坛举行林毅夫任泽平等“云祝贺” 世界热闻

2023-05-20 18:12:29

资讯
间接伤害在线观看完整版_间接伤害在线观看

2023-05-20 17:15:28

资讯
当前热门：陈灏珠院士逝世（关于陈灏珠院士逝世的介绍）

2023-05-20 16:07:31

资讯
“舟农先锋”直播间走进梦幻花鸟岛解读你想要的“诗与远方” 速看

2023-05-20 15:13:31

资讯
全球最资讯丨逃生试炼steam价格/多少钱？逃生试炼联机/连接不上加速器推荐

2023-05-20 13:53:43

资讯
世界热文：霉菌性阴炎怎么根治快_细菌性阴道炎和霉菌性阴道炎性的区别

2023-05-20 12:46:31

资讯
今日老款起亚智跑十大缺点_起亚智跑有哪些毛病|全球百事通

2023-05-20 12:05:45

资讯
tmt板块龙头股_tmt行业龙头股票有哪些

2023-05-20 10:46:37

资讯
每日聚焦：2023海岛生活节昨晚启幕缤纷夜生活燃动海岸线

2023-05-20 10:03:00

资讯
注意！大雨雷电大风在路上，今明有降雨世界观热点

2023-05-20 09:23:47

资讯
【天天新要闻】九角龙鱼怎么养（九角龙鱼）

2023-05-20 08:21:47

资讯
热点聚焦：苏迪曼杯：国羽3-0完胜印尼半决赛将战日本

2023-05-20 07:21:08

资讯
存款利率下调释放的信号

2023-05-20 06:13:42

资讯
国漫人气角色投票结束，不良人完美被质疑刷票，二次元已经饭圈化_速看料

2023-05-20 04:57:11

资讯
当前看点!我想找一个女朋友是哪首歌的歌词_我想找一个女朋友

2023-05-20 02:06:12

资讯
财通证券与衢州市人民政府及下辖县（市、区）签署战略合作协议_今日热议

2023-05-19 23:29:27

资讯
重装电脑上不了网怎么办_电脑上不了网怎么办-聚焦

2023-05-19 22:13:23

资讯
古交市气象局发布雷暴大风蓝色预警【Ⅳ级/一般】【2023-05-19】|天天热资讯

2023-05-19 21:29:09

资讯
【播资讯】实木门的玻璃坏了怎么办玻璃门烂了怎么办

2023-05-19 20:29:02

资讯
强信心稳增长促发展｜第五届西城区企业上市主题交流活动举行世界头条

2023-05-19 19:45:16

资讯
支付宝余额宝收益怎么算

2023-05-19 19:03:52

资讯
快播：新加坡旅游局与谷歌合作推出 AR 应用《Visit Singapore》

2023-05-19 18:32:10

资讯
建龙微纳：第四大股东中证开元及其一致行动人拟合计减持不超3%公司股份天天通讯

2023-05-19 17:40:30

资讯
世界快看点丨2023华为发布哪些新品？华为夏季新品发布会产品介绍

2023-05-19 17:09:09

资讯
中国-中亚峰会｜100秒认识梆子腔鼻祖秦腔

2023-05-19 16:58:45

资讯
主食全谷化意义重大，专家教你怎么吃够全谷物

2023-05-19 16:19:07

资讯
这个实验与心脏输送血液有什么相同与不同？

2023-05-19 15:45:43

资讯
财政部：前四月国有土地使用权出让收入11761亿元，同比下降超两成

2023-05-19 15:14:07

资讯
主承销商：将于6月2日召开“19余姚经开MTN001”2023年第一次债券持有人会议

2023-05-19 14:39:32

资讯
昌盛花园3居室_昌盛花园东区-最新快讯

2023-05-19 13:58:00

资讯
归凯旗下两只基金加仓华测检测

2023-05-19 12:09:43

资讯
精彩看点：菜鸟CEO万霖发布全员信：启动IPO计划建设全球领先的数智物流集团

2023-05-19 12:03:11

资讯
环球关注：从未跌出苏迪曼杯四强的国羽，这次抽中了“下下签”？

2023-05-19 11:08:50

资讯
观察：即日起报名 6月3日火热开赛 2023南昌城市定向挑战赛等你打卡

2023-05-19 11:05:29

资讯
90后失聪女子被认定“恶势力头目”获刑7年，其父坚持申诉，吉林省高院已召开案件问询会

2023-05-19 10:27:24

资讯
哇塞！这连衣裙太好看了，夏天穿清爽舒适，满满女人味

2023-05-19 10:04:53

资讯
多个县区网络预约名额已满别急！准新人到现场排队也可登记_每日动态

2023-05-19 09:19:11

资讯
焦点热文：中指研究院：增速放缓但前景广阔，物业板块价值有望回归

2023-05-19 08:52:42

资讯
OPPO Find X6 Pro 手机推送更新，新增运动模式

2023-05-19 08:16:55

资讯
当前快看：菲沃泰：连续5日融资净偿还累计440.9万元（05-18）

2023-05-19 07:24:15

资讯
今头条！全自动洗衣机标准洗是转几圈（全自动洗衣机转速多少洗的干净）

2023-05-19 06:23:48

资讯
新兴铸管（000778）：5月18日北向资金增持228.21万股

2023-05-19 05:12:08

资讯
力的公式物理初中_力的公式-全球快看

2023-05-19 02:58:42

资讯
什么是双十一保价_什么是双十一|焦点

2023-05-19 01:01:55

资讯
贵州茅台最新公告：公司拟以自有资金参与设立茅台招华基金|快看点

2023-05-18 22:54:06

资讯
【当前独家】Burberry中国第四财季收入上涨13%

2023-05-18 21:12:39

资讯
热文：郑州市总工会组织开展2023年工会会员健步走活动

2023-05-18 20:15:03

资讯
2023年海阳马拉松物资领取指南（海阳市马拉松比赛时间）

2023-05-18 19:21:26

资讯
“冷空气和大风沙尘，已在路上”，内蒙古今夜起迎大风沙尘降温全球消息

2023-05-18 17:45:49

资讯

自对齐能否驾驭“狂奔”的AI

推荐内容

最近更新