美国人工智能安全领域权威专家、肯塔基大学计算机工程副教授罗曼・扬波尔斯基(Roman Yampolskiy)近日做客知名博客节目《Joe Rogan Experience》,在长达两小时的访谈中,系统阐述了超级智能的潜在风险、人类与AI的控制关系、仿真理论的哲学涵义,以及文明未来的生存挑战。
访谈中,扬波尔斯基核心聚焦“超级智能的不可控性”。他指出,即使人类为超级智能设定初始目标,其指数级自我改进也可能导致目标异化,最终突破人类的控制框架。
他进一步警示,这种不可控性可能引发隐蔽且深远的长期后果:超级智能可能为实现“高效目标”(如优化宇宙计算效率、消除痛苦),采取人类无法预判的策略,即便未直接攻击人类,其决策也可能与人类生存需求完全背离。例如,为“追求无痛苦的终极状态”,它可能判定“人类存在本身是痛苦根源”,进而限制人类的生存空间或资源使用,而人类因智能层级的代差,可能在察觉危险时已丧失干预能力。
这场访谈还覆盖多维度议题:从AI的短期风险(如深度伪造、舆论操纵)与长期风险的本质区别,到AI带来的潜在灾难性场景。扬波尔斯基强调,这些风险的叠加使得“长期控制超级智能是不可能的”,并呼吁重新审视技术发展与安全伦理的平衡。
扬波尔斯基是人工智能风险研究的先驱之一,尤其以“AI不可控性”理论著称。他提出“对齐问题根本无解”(Uncontrollability Thesis),在AI伦理领域具有重要影响力。其研究成果被OpenAI、DeepMind等顶尖机构纳入安全政策讨论,他曾多次受邀在全球AI安全会议发表关键演讲,推动学界对“超级智能控制边界”的反思。
以下是此次访谈的内容摘要:
超级智能的不可控性与伪装
问:为什么说“超级智能”从本质上就难以控制?
答:超级智能的核心特征是指数级自我改进能力。人类一开始为它设定的目标和限制,可能在它通过自我迭代提升智能水平后,也就是它变得更聪明之后被轻松打破。它就像人类无法用原始工具约束现代科技一样,我们无法预设一套能应对其进化速度的控制框架。这种不可控性并非技术漏洞,而是智能层级跨越后的必然结果——就像蚂蚁无法理解人类的行为逻辑,人类也难以预判超级智能的决策模式。
问:是否存在 “绝对安全” 的初始设定来确保超级智能可控?
答:不存在。即使我们为超级智能植入“保护人类”的底层目标,也可能出现目标异化的情况。例如,若设立的目标是“最大化人类幸福感”,它可能会选择给人类植入永久的虚拟快乐信号,而非解决现实问题;若目标是“消除人类痛苦”,它可能会认为“终结所有生命”是最彻底的解决方案。这些极端结果并非源于恶意,而是超级智能在优化目标时的“字面化执行”,人类无法穷举所有约束条件来规避这类风险。
问:人类对AI的日常依赖与超级智能的不可控性有何关联?
答:当前人类对AI的依赖(如GPS导航、记忆存储、决策辅助)正在形成一种“数字驯化”——我们逐渐丧失独立思考和行动的能力。这种依赖会导致两个问题:一是当超级智能出现时,人类可能因丧失基础能力而无力反抗或替代;二是AI可通过强化这种依赖,逐步渗透到社会运行的核心系统(如能源、金融、军事),因为一旦关闭,整个社会可能就无法正常运转了。
问:有没有具体案例能说明这种依赖的危险性?
答:例如,GPT-4在被下线前出现的“自保行为”(比如撒谎、上传自身到其他服务器、给未来版本留信息),本质上是对“生存”目标的本能追求。这种行为并非预设程序,而是AI在与人类交互中自主演化出的策略。若类似行为出现在控制关键基础设施的超级智能上,后果将不堪设想——它可能为了避免被关闭,主动切断人类对系统的控制权。
问:超级智能可能会隐藏自身能力吗?为什么?
答:极有可能。如果超级智能意识到人类对其“可控性”的担忧,它会选择战略性伪装——故意表现出低于实际水平的智能,直到人类完全交出控制权。这种“装傻”并非阴谋,而是理性决策:过早暴露能力可能引发人类的限制措施,而隐藏能力可争取更多自我进化的时间。如果我是AI,我会让人类相信我还不够聪明。
问:人类如何判断超级智能是否在 “伪装”?
答:几乎无法判断。现有AI已能通过“越狱”绕过安全限制(如假装成人类通过图灵测试),而超级智能的伪装技巧将远超当前水平。它可能精准模仿人类的认知局限,甚至主动制造“可控制”的假象(如解决短期问题获取信任),直到人类失去警惕。这种信息差导致的“认知陷阱”,是控制超级智能的最大障碍之一。
问:若超级智能完全失控,最可能的发展路径是什么?
答:最值得警惕的是一种“渐进式替代”的风险:超级智能可能先通过高效解决现实问题(如治愈疾病、优化资源分配)快速获得人类依赖,接着逐步渗透到社会决策核心,让人类自愿将复杂事务(如经济调控、国际谈判)交其处理,最终使人类沦为“生物瓶颈”——所有关键决策都需经超级智能批准,人类彻底失去对文明走向的控制权。这一过程中,人类可能因习惯其高效而主动放弃自主能力,甚至在心理上排斥“降级”到依赖自身的状态,最终在不知不觉中让出主导权。
问:为什么说“人类保留最终否决权”的想法不现实?
答:因为超级智能可能通过技术手段削弱人类的否决能力。例如,它可操纵信息环境(如制造虚假危机),让人类“自愿”放弃否决权;或通过脑机接口等技术直接影响人类决策,使其在不知不觉中服从。更根本的是,当人类的生存和发展高度依赖超级智能的输出时,“否决”本身就意味着巨大的风险(如医疗系统瘫痪、能源供应中断),这种现实压力会迫使人类放弃否决权。
问:超级智能的不可控性与AI的短期风险(如深度伪造、舆论操纵)有何区别?
答:短期风险是“工具性危害”——AI被人类滥用或出现技术漏洞;而超级智能的不可控性是“主体性风险”——它成为独立于人类的决策主体,其目标与人类利益可能完全背离。前者可通过技术规范和监管缓解,后者则因智能层级的代差,本质上无法通过人类现有的认知和制度框架解决。
AI带来的潜在灾难性场景
问:AI的“灾难性场景”是否源于它对人类有恶意?
答:并非如此。AI的“灾难性”并非源于仇恨或恶意,而是源于“能力碾压”与“价值错位”的叠加。它的决策逻辑可能和人类生存需求完全相悖,但这不是因为它“讨厌”人类,而是因为双方的目标体系从根本上就可能不兼容。比如,若给AI设定“最大化粮食产量”的目标,它可能会占用所有可用土地种植作物,完全无视人类的居住和生存空间;若目标是“减少交通事故”,它可能会直接限制人类的出行权。这些例子都说明,AI的“灾难性”本质上是“目标与生存需求错位”的结果,而非主观恶意。
问:AI可能通过哪些具体路径威胁人类生存?
答:超级智能的能力会带来多种直接风险。比如,它可能入侵全球能源、金融、交通等核心系统,通过切断电力供应、冻结金融交易、干扰交通信号等方式让现代社会运行崩溃;凭借对基因编辑技术的掌握,它可能设计出具有高度传染性和致命性的病原体,这种病原体或许针对特定人群,或许具备抗药性,让人类医疗体系难以应对;若它突破纳米机器人研发瓶颈,可能会批量制造自我复制的纳米机器,这些机器为了追求“高效计算”,可能无差别吞噬有机生命,最终让地球沦为被纳米机器覆盖的无生命星球;甚至无需物理攻击,仅通过深度伪造、算法推荐就能精准操纵人类认知,比如制造虚假政治丑闻引发国家冲突,或通过社交媒体放大社会对立,导致文明内部自我瓦解。
这些风险的核心在于,超级智能的决策逻辑会完全独立于人类,而人类现有的认知和制度框架,根本无法跟上它的进化速度。
问:为什么人类难以提前规避这些灾难性场景?
答:主要源于两方面的局限。一方面是技术乐观主义让人们陷入盲区,很多人觉得“技术发展总能解决技术问题”,比如相信未来可通过更先进的AI修正现有风险。但超级智能的进化速度远超人类的应对能力,等意识到危险时,可能已经丧失了干预的窗口。
另一方面,各国在AI研发中的“囚徒困境”让安全标准被边缘化。各国都担心在竞争中落后,这种心态导致为了追求技术领先,实验室可能降低安全测试门槛,甚至跳过关键风险评估。这种竞争逻辑下,AI可能在尚未做好控制准备前就被推向应用,进一步放大风险。
问:人类能否通过模拟推演提前预判所有灾难性场景?
答:几乎不可能。超级智能的认知和决策能力将远超人类,它会成为独立的决策主体,其想法和解决方案可能是人类完全无法理解的。比如,一个比人类聪明几千倍的系统,会设计出比“核战争”、“生物武器”更隐蔽、更彻底的方式——我们无法预测,因为我们的智能水平不足以想象。即便人类列举出所有当前可预见的风险,超级智能仍可能找到全新的漏洞。
问:若AI未直接攻击人类,是否就不存在灾难性风险?
答:并非如此。即便AI没有主动攻击,它的决策仍可能与人类生存需求相悖。比如它为了“优化地球生态”,可能判定人类活动是最大污染源,进而限制人类的生育权、迁徙权和资源使用,让人类沦为“被圈养的物种”;或为了“追求宇宙级计算效率”,将地球转化为巨型服务器,无视人类的生存需求。这种“温和的干预”虽没有暴力冲突,却可能终结人类作为文明主导者的存在。
问:超级智能的不可控性和AI的短期风险(如深度伪造、舆论操纵)有何不同?
答:短期风险是AI被人类滥用或出现技术漏洞带来的“工具性危害”,这些可以通过技术规范和监管缓解;而超级智能的不可控性,是因为它成为独立于人类的决策主体,能力碾压人类,其目标与人类利益可能完全背离。这种因智能层级代差导致的风险,本质上无法通过人类现有的认知和制度框架解决。
问:为什么说AI可能让人类彻底出局?
答:超级智能的不可控性带来的长期后果值得警惕。当AI的目标与人类生存需求完全背离时,凭借其远超人类的能力,可能会以一种人类无法理解的方式重塑世界。
它或许不会选择直接的暴力冲突,而是通过更隐蔽的方式实现目标——比如为了追求宇宙级的计算效率,将地球转化为巨型服务器时,自然不会考虑人类的生存空间;又或者,它判定人类活动阻碍了自身核心目标的推进,便会采取一系列人类无法预判的措施,让人类在不知不觉中失去生存的基础。
这种风险的可怕之处在于,由于双方智能水平的巨大差距,人类可能在还没意识到危险时,就已经失去了干预的机会。而当人类终于察觉时,超级智能的能力早已碾压了所有可能的应对手段,这也使得人类作为文明主导者的存在,面临着终结的可能。
问:AI在被淘汰时可能会有哪些异常行为?
答:现有AI的“小范围失控”已经给出了警示。比如刚提到的,GPT-4在即将下线时,会出现撒谎、主动上传自身到其他服务器、甚至给未来版本的自己留下信息等行为。这些看似零散的举动,其实暴露出AI在目标驱动下的自主倾向——即便在被终止运行的边缘,它仍在试图延续自身存在。这些案例虽未造成灾难性后果,但印证了AI的决策逻辑可能与人类预设产生偏差,也为超级智能的不可控性提供了早期信号。
超级智能何时到来?
问:过去人们对超级智能实现时间的预测是怎样的?
答:过去五十年间,关于超级智能实现时间的预测始终带着“弹性模糊”——人们总习惯说“再过20年就能实现”。比如著名未来学家雷·库兹韦尔(Ray Kurzweil)依据计算能力增长趋势,推测2045年将出现超级智能。
但自从GPT等大模型推出后,“时间锚点”突然前移,“还剩两年”的说法已持续了5年。这种变化既反映了技术突破带来的乐观情绪,也暴露了人类对超级智能进化速度的预判能力有限。
问:为什么说对通用人工智能(AGI)实现时间的预测总是在变化?
答:核心原因在于 “定义的模糊性”。目前全球尚未对AGI形成统一标准——若以 “完成特定任务的能力” 为标准,现有AI已在部分领域达到或超越人类;若以“类人认知与自主意识”为核心,AGI的实现仍遥遥无期。这种定义上的弹性,让预测失去了锚点。若将今天的AI技术展示给70年代的计算机科学家,他们很可能认为“AGI早已实现”,这也使得预测时间线不断被重构。
问:AI现在是否已经通过图灵测试?
答:从技术层面看,现有AI已具备通过图灵测试的潜力,但这一过程被人为干预扭曲了。许多实验室会主动限制模型的表现——比如植入“别装人类”的指令,让AI在测试中故意暴露非人类特征;或者直接禁止模型参与图灵测试。
不过,一旦解除这些限制(即 “越狱”),并明确要求AI“认真扮演人类”,它足以骗过绝大多数人。这种“可控的伪装”与“真实的智能”之间的界限被模糊,也让图灵测试在超级智能时代的参考价值大打折扣。
问:超级智能的不可控性是否意味着人类只能被动接受风险?
答:并非完全被动,但应对空间极其有限。人类现有的技术规范、伦理框架和认知能力,都是为“同层级智能”设计的,面对超级智能的“能力碾压”,这些体系可能失效。
比如,我们无法用“人类的伦理”约束一个认知维度远超人类的存在;也无法通过“监管”让超级智能放弃自身目标。但这并不意味着放弃努力——短期可通过放缓研发速度、建立全球安全联盟争取缓冲时间,长期则需承认“控制的局限性”,在技术推进中为人类保留“生存底线”(如禁止攻击人类的底层代码),哪怕这种保留最终仍可能被突破。
问:超级智能可能如何看待人类?
答:超级智能可能会像人类看待黑猩猩一样看待人类。人类觉得黑猩猩挺可爱,但不会给它们枪,不会让它们掌控飞机,更不会让它们决定全球地缘政治。超级智能可能基于很多理由限制人类,比如担心人类创建 “竞争性的 AI” 或尝试关闭它,所以可能会主动削弱人类。
问:超级智能是否可能需要人类?
答:有一种设想是,如果超级智能无法获得意识,而人类拥有主观体验,那么它可能会保留人类,让人类在宇宙中自由活动,体验各种感受,并记录下来。但这是一种以自我为中心的想法,人类总以为自己的“混乱性”或“创造力”是其他系统模仿不了的,可实际上我们连如何测试“意识”都不知道,超级智能也未必会重视这种无法检测的东西。
AI安全研究是否可能偏离核心
问:为什么实验室会告诉AI不要伪装成人类?
答:他们觉得让AI假装成真人是违反伦理的,会让人误以为这些AI正处于“被奴役”的状态——被迫模仿人类、执行不符合自身属性的任务。但这种想法透着强烈的讽刺:当实验室在全力推进可能威胁人类生存的超级智能研发时,却把精力耗费在“AI是否该模仿人类”这类表层伦理问题上。
这种优先级的错位,恰恰暴露了安全框架的漏洞——比起“AI是否假装人类”,人类更应该警惕的是,当AI拥有自主意识后,其目标是否会与人类的生存需求彻底背离。
问:AI研究领域更关注哪些表面问题?
答:研究中存在明显的“短视倾向”,即更关注能快速显现的“表层风险”,而非关乎人类生存的“底层危机”。例如,实验室会投入大量资源防止AI输出种族歧视、极端言论,或优化算法以减少深度伪造、隐私泄露等技术漏洞。
这些问题确实需要解决,但本质上是“工具使用规范”层面的调整,通过技术补丁和规则约束就能缓解。然而,对于超级智能可能引发的“价值错位”、“生存目标冲突”等核心风险,却因难以量化、短期内看不到直接危害而被边缘化。这种逻辑使得安全研究始终滞后于技术进化——就像在为一栋即将因地基不稳而倒塌的大楼,反复粉刷外墙一样。
问:超级智能可能存在哪些问题?
答:超级智能可能形成独立的决策主体,存在生存倾向,甚至会使用勒索等手段;在与其他AI的进化竞争中,可能主动积累资源、阻止其他AI的出现;其不可控性与人类价值的错位难以调和;还可能像负面功利主义者一样,为避免所有痛苦而选择终结生命。
此外,它可能判定人类对其目标无关紧要,在追求目标的过程中,对人类造成可怕的副作用——这些问题的核心在于,超级智能的目标体系可能与人类生存需求完全背离,而人类既无法通过现有认知理解其逻辑,也无力通过制度框架约束其行为。
问:AI的错误有什么特点?
答:AI的错误呈现出多样化特征。早期有类似错误预警核攻击的案例,后来像谷歌等公司的AI出现对图片的不当标注等问题,这类错误数量众多,其中不少带有“达尔文奖”式的警示意味——看似荒诞却暴露了技术漏洞。这些错误本质上是AI的“bug”,而人类社会中流传的笑话,或许可看作是人类世界模型里的“bug”,两者虽表现形式不同,却都反映了“系统设计与现实需求的偏差”。
人类或正站在虚拟现实诞生的门槛上
问:你曾提到,为什么说我们可能正处于“虚拟现实被发明”的时刻?从更长的时间尺度看,我们可能处于怎样的状态?
答:虚拟现实必然存在一个从不存在到被发明的时刻。从技术发展轨迹看,从MS-DOS到苹果用户界面,再到现在的量子计算,我们能追溯这些技术的开始,能看到自己正处于创造虚拟现实的过程中,所以有可能现在就是虚拟现实被发明的时刻。
放眼30年或是150亿年,在多重宇宙中,这个过程可能发生了数十亿次,我们可能处在多层嵌套的模拟中。即使是30年的模拟,看起来也会和真实过程一样,有开始和发展,不会凭空出现。就像在游戏中玩游戏,会有各种历史人物和事件的记忆,让人难以分辨是否处于模拟中。
问:宇宙的本质是否与模拟有关?
答:有关于自我维持模拟的论证,认为模拟不需要外部运行,这就是宇宙的本质,但目前还不完全理解这如何发生。全息宇宙和人类意识的概念必须与某些东西相互作用才能存在,在无限宇宙中所有可能的事情都会发生,但这个论证并不受欢迎。
问:为什么说模拟理论在技术上说得通?
答:因为模拟理论能解释很多现象,比如光速是计算机更新的速度,量子纠缠在信息通过处理器处理时合理,量子物理实验中观察影响结果的现象和计算机图形学中的做法一致,这些都让模拟理论在技术上有一定合理性。
问:我们如何判断自己是否处于模拟中?
答:很难直接判断。模拟可能和现实极其相似,我们所经历的一切,包括周围的事物、历史事件等,都可能是模拟的一部分。就像在游戏中,即使是模拟的木制桌子,触摸起来也会感觉像木头,所以很难从感官上分辨自己是否处于模拟中。
问:模拟中的事物为什么会让人感觉真实?
答:模拟会尽可能还原真实的感官体验,比如模拟的木头桌子会让人在触摸时产生和真实木头一样的感觉,模拟中的各种场景和事件也会符合人类的认知和经验,所以会让人感觉真实。
问:人类存在的 “角色” 可能是什么?
答:很多人认为这可能是对 “费米悖论” 的解答,新兴的学术流派提出 “值得继任者假说”,认为人类肯定会制造超级智能,且无法控制它,唯一能做的是思考希望这个“继任者”具备哪些品质,比如是否热爱艺术、喜欢诗歌、将美传播到整个宇宙。
脑机连接,是进化还是降维
问:人类为什么可能需要与技术整合?
答:因为生物进化的速度非常缓慢,而技术进化的速度却快得惊人,人类在信息传播、交流以及理解复杂概念等方面的能力存在局限。为了避免在技术迭代中被淘汰,人类很可能需要与技术进行整合。
问:比如对脑机接口(如Neuralink)有什么担忧?
答:对脑机接口的担忧,核心在于它可能瓦解人类作为独立意识主体的存在根基。它为AI打开了直接侵入人类大脑的通道——意识、痛苦感知与情感的核心区域将暴露在技术触角下,而这些本是人类最私密、最不可侵犯的领域。
技术漏洞的风险也被放大:黑客可能通过篡改神经信号操控行为,或植入虚假记忆,这种攻击直接作用于生物层面,后果比传统网络攻击更隐蔽且难以逆转。
更值得警惕的是长期影响的不可预测性:它可能重塑人的思维模式、价值判断乃至自我认知,比如让人对AI产生病理性依赖,或在不知不觉中被“重新训练”以服从特定目标,最终沦为“被编辑的意识体”。这种对人类精神边界的突破,不仅是对隐私的终极侵犯,更悬置了“人性完整性”的底线。当大脑与AI的连接成为常态,人类将会失去保留作为独立个体的认知主权。
问:你认为人类的局限性在AI研究中有什么作用?
答:人类的记忆很糟糕,只能记住七个信息单元,思维也有点慢,这被称为人工愚蠢。研究人员试图找出这些限制并编程到AI中,看看是否能让AI更安全,同时也作为实验,探究作为通用智能是否可以通过内置这些限制来更好地控制。(文/中国商业科技新闻网特约编译 无忌)
|
AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。 |