辛顿、姚期智再签“上海共识”:AI可能已超越人类,大模型要有“随时关机”的能力

Published:

AI安全国际对话上海共识签署现场,辛顿、姚期智等专家合影

文丨苏扬

编辑丨郑可君

7月25日,一份由杰弗里·辛顿(Geoffrey Hinton)、姚期智、本吉奥(Yoshua Bengio)等超过20位行业专家、学者共同签署的AI安全国际对话上海共识(以下简称“上海共识”)正式公开。该共识强调,人工智能系统能力已接近甚至可能超越人类,但人类尚未掌握有效的控制它的方法,因此,呼吁全球增加对AI安全的投入。

作为本次共识发起方之一,图灵奖得主、上海期智研究院的院长姚期智表示,“我们要达成共识并且标明风险切实存在,需要大家携手寻找解决方案。希望基于自身所处的位置,去促成一些国际安全相关合作,最后则是通过研讨会的形式去探讨在剧烈的变化过程中,发挥人工智能的优势,以帮助应对随之而来的挑战。”

“上海共识”中联名签署的专家普遍认为,人类正处于一个关键转折点——人工智能系统正迅速接近并可能超越人类智能水平。这些未来的系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动。这可能导致失控,即一个或多个通用人工智能系统脱离任何人的控制,从而带来灾难性风险。

“这项技术现在处于一个可以推翻人类文明与控制的阶段,对AI系统来说,它就像疾病大流行一样,可能在任何一处发生。”加州大学伯克利分校的计算机科学教授罗素说。

关于人工智能能力的具体体现,“上海共识”强调,已经有部分人工智能系统展现出削弱开发者安全与控制措施的能力与倾向,但相关证据主要是在实验场景中发现,人类还未掌握已知的方法,能够在更高级的通用人工智能超越人类智能水平后,仍能可靠地确保其对齐。

更直白地理解,即人类还没有掌握有效控制高级通用人工智能的办法

罗素透露,目前已经观测到在人类明令禁止AI使用核武器的情况下,AI在感知到自身威胁的情况下,还是会擅自决定发射核武器,甚至会尝试通过不断复制来规避关机的行为。“它们通过预设程序将自身代码复制到不同终端,以此规避被关机。”罗素说。

2024年,辛顿、姚期智、罗素、本吉奥等专家共同签署的“北京共识”聚焦在对AI风险的划定、治理、评估、与合作几个部分,尤其是呼吁行业为AI的研发和应用戴上“紧箍咒”,避免相关技术被滥用,而“上海共识”则是聚焦通用人工智能系统的对齐与控制,提前规避安全风险。

“上海共识”认为,高级人工智能系统在部署时已对齐并处于人类控制之下,其必要性已获得关键决策者普遍认同,但是AI能力发展速度远超AI安全的研究和发展速度,因此在强化AI安全技术方面,除了推动全球协作以外,共识更是强调在必要时可自主行动。

为此,上海共识提出了三大建议:“要求前沿人工智能开发者提供安全保障” “通过加强国际协调,共同确立并恪守可验证的全球性行为红线” “投资基于设计的安全人工智能研究”。

其中,要求开发者提供安全保证提到,部署强大模型之前,除了要做好内部安全评估外,应委托第三方独立评估,同时对超越关键能力阈值的模型还要向监管部门、公众做好信息披露,并在上线之后有清晰的风险响应机制和立即关停系统的能力。

加强国际协调,共同确立并恪守可验证的全球性行为红线,核心是联动国际社会来确立具体、可操作、受全球认可的红线,核心则是呼吁建立一个统一的协调机构来推动红线落实和标准统一。

投资基于设计的安全人工智能研究,主要是强调短期内亟需建立可扩展的监管机制以应对人工智能的欺骗问题、提升模型对“越狱”等攻击手段的抵御能力、强化信息安保投入等,而长期则需要一个“基于设计的安全”的架构,而非问题出现后才被动应对。

作为“上海共识” 、“北京共识”的共同签名者之一,霍普金斯大学约翰分校、彭博人工智能协调与治理特聘教授吉莉恩·哈德菲尔将人工智能定义为一个全球公共品,需要跨国界合作,“人类本质上是一个协作物种,AI带来的治理挑战并非单一体制能够应对,尽管当前的科学合作会面临一些障碍,但是在这个关乎技术路线与治理方式的议题上,我们必须重识合作精神。”

“我越来越相信,人类终将找到解决方案。”姚期智说。

姚期智透露,18个月前举办第一次安全共识会议时,AGI强大的破坏力就已经显现,人类甚至难以阐明其失控机制,不过随着相关会议的推进,已经看到若干有关“设计安全”(Safe by design)的提案,这意味着实际上人类可以找到确保AI安全的可行路径。

以下为“上海共识”的签署名单:

Geoffrey Hinton

Professor Emeritus, Department of Computer Science

University of Toronto

Turing Award Winner

Nobel Prize Winner

Andrew Yao 姚期智

Turing Award Winner

Dean

Shanghai Qi Zhi Institute

Dean, Institute for Interdisciplinary Information Sciences and College of AI

Tsinghua University

Yoshua Bengio

Professor

Université de Montréal

Founder and Scientific Advisor

Mila – Quebec AI Institute

Chair

International Scientific Report on the Safety of Advanced AI

Turing Award Winner

Stuart Russell

Professor and Smith-Zadeh Chair in Engineering

University of California, Berkeley

Founder of Center for Human-Compatible Artificial Intelligence (CHAI)

University of California, Berkeley

Fu Ying 傅莹

Xue Lan 薛澜

Dean, Schwarzman College

Tsinghua University

Director, Institute for AI International Governance (I-AIIG)

Tsinghua University

Gillian K. Hadfield

Bloomberg Distinguished Professor of AI Alignment and Governance

Johns Hopkins University

Robert Trager

Director, Oxford Martin AI Governance Initiative

University of Oxford

Sam R. Bowman

Member of Technical Staff,

Anthropic, PBC

Associate Professor of Data Science, Computer Science and Linguistics

New York University

Dan Baer

Dan Hendrycks

Executive Director

Center for AI Safety

Advisor xAI

Advisor Scale AI

Xu Wei 徐葳

Principal Investigator

Shanghai Qi Zhi Institute

Professor and Vice Dean of the Institute for Interdisciplinary Information Sciences

Tsinghua University

Zhu Yibo 朱亦博

Co-Founder

Stepfun

Wei Kai 魏凯

Director

Artificial Intelligence Institute at the China Academy of Information and Communications Technology (CAICT)

Chair

General Working Group of Artificial Intelligence Industry Alliance (AIIA)

Benjamin Prud’homme

Seán Ó hÉigeartaigh

Director of the AI: Futures and Responsibility Programme

Centre for the Future of Intelligence, University of Cambridge

Gao Qiqi 高奇琦

School of International Relations and Public Affairs Professor

Fudan University

Adam Gleave

Founder and CEO

FAR.AI

Tian Tian 田天

CEO

RealAI

He Tianxing 贺天行

Principal Investigator

Shanghai Qi Zhi Institute

Assistant Professor, Institute for Interdisciplinary Information Sciences (IIIS)

Tsinghua University

Brian Tse 谢旻希

Founder and CEO

Concordia AI

Fynn Heide

Executive Director

Safe AI Forum

Lu Chaochao 陆超超

Research Scientist

Shanghai AI Laboratory

Fu Jie 付杰

Research Scientist

Shanghai AI Laboratory

Chen Xin 陈欣

PhD Student

ETH Zurich

Hu Naying 呼娜英

Senior Business Executive

The Artificial Intelligence Institute at the China Academy of Information and Communications Technology (CAICT)

Chair

Governance Group of AI Security, Security and Governance Committee of Artificial Intelligence Industry Alliance (AIIA)

图片

AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。

推荐阅读
图片斯坦福最新研究:硅谷AI创业潮,是一场大型的资源错配
图片奥特曼AI Ascent闭门会最新专访:2025,AI智能体正加速登场
图片2025,中国芯片“第一战”打响

文章原文

Related articles

Recent articles