科技

对话楼天城:无人驾驶早已实现,但“牌桌”上仅三个玩家,特斯拉不算

腾讯汽车《泰坦Talk》特约作者 傲   然编辑 杨布丁“ 它(特斯拉)还没上L4‘牌桌’!”就在马斯克高调发布特斯拉Robotaxi前,小马智行联合创始人、CTO楼天城抛出了这样一个论断。去年,楼天城也有类似惊人话语,他认为,“L2做得越厉害,离L4越远”。这些观点无疑颇具争议,尤其在AI爆发式发展的当下。在很多人看来,L2和L4的行业境遇已经与去年截然不同,L2 技术路线正加速向数据驱动转型,市场渗透率呈现快速提升趋势。按行业定义,L2 是需驾驶员持续监控路况、双手不离方向盘的辅助驾驶系统,而 L4 是在限定区域内无需人类干预、车辆可独立完成全场景驾驶任务的自动驾驶技术,如无人出租车在城区自主接单运营。楼天城和他的小马智行是L4路线坚定践行者。6月初,我们与楼天城进行了一次对话,探讨了他眼中的L4行业格局、L2与L4的根本差异、自动驾驶终局判断以及AI对自动驾驶的影响。在楼天城的认知体系里,L4“牌桌”本身有着清晰的门槛和标准——即无人化和规模化。在他看来,全球范围内,只有Waymo、百度和小马智行三家在“牌桌”上;而对于当下火热的L2赛道,楼天城干脆表示,自己早在Waymo的时候就已经否掉了它。楼天城身上贴着很多标签:天才、极客、“楼教主”…… 他被誉为“中国编程第一人”,是图灵奖得主姚期智创办的清华 “姚班” 首届毕业生,2008 年又师从姚期智,进入清华理论计算机中心攻读博士。毕业后,楼天城加入 Google X 参与无人车(今日的Waymo)研发;2016年,楼天城加入百度美国研发中心,担任百度无人驾驶事业部技术委员会主席,成为最年轻的 T10 级工程师;2016年底,楼天城以联合创始人、CTO身份与百度无人车首席架构师彭军共同创立小马智行,专注L4级自动驾驶领域。2024年11月,小马智行在纳斯达克挂牌上市,目前市值约为45亿美元。过去9年,在通往L4终极目标的道路上,小马智行曾多次遭受外界质疑,也面临过商业与技术平衡的严峻挑战。但楼天城和彭军都对外表示过,“我们从来没有怀疑过L4这条路”。楼天城称小马智行真正押注的是未来出行与车辆形态的变革,而 L4 技术正是实现这一变革的核心。楼天城认为,改变车的形态是达成终局的第一步,是最低的门槛。面对商业和竞争,楼天城毫不掩饰他的野心,直言“有一天想在客场打败Waymo”。在本次对话中,楼天城还首次系统阐述了“L4牌桌论”,并透露十年前Waymo放弃L2项目的真正原因。我们还聊到:如果今天不做自动驾驶,他会做什么?为何他认为世界是模拟的?创业路上的最大诱惑是什么?作为外界眼中一位“偏执的结果主义者”,楼天城以编程竞赛般的精准逻辑,向我们拆解了他自己、技术、公司和整个行业。以下为对话实录(在不改变原意的情况下,有删减调整) :“有一天我想在客场打败Waymo”泰坦Talk:特斯拉要发布Robotaxi,你怎么看?楼天城:这件事是L4上很重要的milestone(里程碑),它的数量不多,但本质是从0到1的变化,实现了真正无人。这也意味着,美国除了Waymo外,又有一家公司把Robotaxi 做到了无人化运营。马斯克在限定范围运营Robotaxi ,从邀请制再开放运营,这个做法反而印证了Waymo做法是对的。奥斯汀是Waymo第一个做无人运营的地方,它是一个很少下雨的地方,路上基本没有行人。泰坦Talk:所以在你看来,特斯拉今天的Robotaxi,是一个比较常规的动作?楼天城:它是个非常serious(认真)的Robotaxi玩家,在很多技术判断上跟我们是一致,并没有觉得什么很意外的地方。泰坦Talk:你觉得接下来特斯拉也会继续跟着 Waymo进入相同的区域运营吗?楼天城:我先不说马斯克会不会完全复制Waymo,区域扩展需要过程,目前...

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

中国商业科技新闻网《AI未来指北》特约作者丨郝博阳编辑丨郑可君2025年1月到5月间,斯坦福大学的研究团队完成了一项本应在AI热潮开始时就进行的调查。他们采访了1500名美国员工和52名AI专家,评估了104个职业中的844项具体任务。这项由经济学家Erik Brynjolfsson和Yijia Shao领导的研究,第一次系统地量化了一个简单却被忽视的问题:人们到底想要什么样的AI?在这844项职业任务中,研究者让员工们用1到5分评价他们对AI自动化的渴望程度。结果呈现出一幅复杂的图景:仅有7.11%的任务得分大于等于4分——意味着员工希望大部分由AI来接管;另有6.16%的任务得分在2分以下,表明员工强烈抵触自动化。总体而言,46.1%的任务获得了3分以上的正面评价,但这个看似中性的数字掩盖了巨大的行业差异。在计算机和数学领域,超过半数的任务受到欢迎;而在艺术、设计和媒体领域,这个比例骤降至17.1%。更关键的发现在于,当研究者将这些员工需求数据与硅谷的实际投资流向对比时,一个令人不安的错配模式浮现了出来。需求与供给的断层“需求-能力”矩阵研究团队创造性地构建了一个“需求-能力“矩阵,基于员工的自动化意愿(Aw(t))和AI专家评估的技术可行性(Ae(t)),将所有844项任务划分为四个象限。“自动化绿灯区“代表那些员工想要且技术可行的任务;“红灯区“则是技术可行但员工抵触的领域;“研发机会区“包含员工渴望但技术尚未成熟的任务;“低优先区“则是既无需求也无能力的任务。通过将Y Combinator孵化的,723家AI相关公司映射到这些任务上,研究揭示了一个惊人的事实:41.0%的公司-任务映射落在了“低优先区“和“红灯区“。换言之,近一半的AI创业努力都投向了员工既不需要也不想要的方向。具体数据更能说明问题。在“绿灯区“,平均每个任务对应117.63家YC公司;“研发机会区“是134.57家;而“低优先区“和“红灯区“分别是118.87家和134.35家。这种近乎均匀的分布表明,投资决策与实际需求之间几乎不存在相关性。以税务准备为例。“安排客户会见“这项任务获得了员工给出的满分5.0分,意味着所有受访税务准备人员都迫切希望AI能接管这项工作。技术上,这是一个相对简单的日程管理问题。然而,专注于此类“绿灯区“任务的创业公司寥寥无几。相反,客户服务聊天机器人——一个超过40%员工明确表示不需要的“红灯区“——却吸引了大量投资。研究团队获得了Anthropic提供的Claude.ai使用数据,涵盖2024年12月至2025年1月的使用情况。对比分析揭示了另一层错配:员工自动化需求最高的前10个职业(包括税务准备员、公共安全调度员、计时员等)仅占Claude.ai总使用量的1.26%。这个数字的含义是双重的。一方面,它表明当前的AI工具可能没有触及真正需要帮助的人群;另一方面,它也暗示着巨大的未开发市场。那些每天忙于安排会见、维护文件、处理工资调整的员工们,可能根本不知道AI能够帮助他们,或者现有的AI工具并不适合他们的具体需求。这就是典型的资源错配。更有趣的是,学术研究显示出了与产业界不同的关注点。通过分析截至2025年4月24日arXiv上的17,064篇相关论文,研究团队筛选出1,222篇真正涉及AI智能体系统的论文。这些论文在四个任务区域的分布显示,学术界更多地关注“研发机会区“——那些员工需要但技术尚未成熟的领域。这方面,他们比产业界反而嗅觉灵敏,但也太过追求前沿。然而,即使是学术研究也存在严重的领域集中问题。获得最多论文覆盖的三项任务全部属于“计算机和信息研究科学家“职业:应用理论专业知识和创新来创造或应用新技术(1,169篇)、分析问题以开发涉及计算机硬件和软件的解决方案(1,132篇)、执行或指导现有程序的修订、修复或扩展(1,109篇)。就算是科学家,也更关心自己家的事情。在工作替代这件事上专家意见不一定能代表从业者人类参与度量表斯坦福团队的一个重要贡献是引入了“人类参与度量表“(Human Agency Scale, HAS)。这个从H1到H5的五级量表,量化了从“AI完全自主“到“人类完全主导“的不同协作模式。HAS的分布揭示了不同职业中人工智能体整合的多样化格局数据显示,在104个被研究的职业中,有47个(45.2%)将H3级——“人机平等伙伴关系“——作为最受欢迎的模式。只有2个职业(1.9%)偏好H1级的完全自动化,1个职业(1.0%)坚持H5级的人类完全主导。35.6%的职业倾向于H2级(AI主导但需要关键人类输入),16.3%选择H4级(人类主导但AI辅助)。更引人深思的是员工期望与专家评估之间的系统性偏差。在844项任务中,仅有26.9%在两个群体间获得了相同的HAS评级。在剩余的任务中,47.5%显示员工期望的人类参与度高于专家认为技术所需的水平,25.6%则相反。通过计算两个分布之间的距离,研究识别出员工的意见和专家意见分歧最大的职业。电力调度员以0.830的JSD值位居榜首,其次是医疗转录员(0.675)和证券销售代理(0.615)。这些职业的共同特点是,AI专家认为许多任务已可实现H1级自动化,但从业者坚持需要更高的人类参与。这再次显示出了具体领域中的某些复杂细节可能与专家评估的简单流程化操作完全不同。按照专家的思路走,这些AI初创公司很可能会掉进复杂细节,难以统一化的泥潭。艺术、设计和媒体领域算是从业者抵抗AI入侵的最前沿了。在该领域的所有任务中,只有17.1%获得了超过3分的自动化意愿评分。具体来看,“编辑:撰写故事、文章、社论或通讯“的平均得分仅为1.60分;“平面设计师:基于布局原则和美学设计概念创建设计、概念和样本布局“得分1.78;“制片人和导演:剪辑电影或录像带“得分1.75。他们也有足够的理由。通过分析1500份音频访谈记录,研究团队使用LLM辅助的主题建模技术提取了员工们的核心关切。在被问及“你如何设想在日常工作中使用AI“时,28.0%的受访者表达了某种形式的担忧或负面情绪。这些担忧可以归纳为三大类:45.0%的人不信任AI系统的准确性、能力或可靠性;23.0%担心工作被取代;16.3%认为AI缺乏人类特质或能力。一位拥有6-10年经验的艺术总监的表述颇具代表性:“我想要它用于无缝地优化工作流程,让事情变得不那么重复、乏味和艰苦。不要内容创作。“另一位3-5年经验的艺术总监说得更直接:“我绝不会用AI来取代艺术家。“但好莱坞可能有别的想法,最后市场会验证到底哪边更对。数据背后的深层逻辑基于薪资均值与人类自主性需求的技能排行对比研究通过统计分析揭示了一些深层模式。员工的自动化需求(Aw(t))与其对失业的担忧呈显著负相关,与工作享受度的相关性更强。这意味着员工们想要自动化的,恰恰是那些他们不享受且不太担心会因此失业的任务。更深入的分析显示,拥有博士学位的员工比本科学历者对自动化的需求高0.236分;工作经验超过10年的人比1-2年经验者的需求高22.9%;强烈同意“AI能减轻繁琐工作“的人比中立者的自动化需求高0.685分。这既显示出了人们对AI的诉求,即利用它们去除繁琐的工作,专注更多有价值的高级事物。也在另一方面显示出,教育、经验对于AI时代的工作者而言可能更为重要,他们能更好的确认什么是重复、缺乏创新的部分,去发挥AI更大的作用。那去除掉繁琐工作之后,人们工作和技能发展的中心可能会转移到哪里去呢?研究通过将任务映射到O*NET数据库定义的27项通用工作活动,研究揭示了AI可能如何重塑职场技能的价值体系。研究者计算了每项技能相关任务的平均工资(基于美国劳工统计局2024年5月数据)和平均所需人类参与度。结果显示了一种深刻的价值倒置。“分析数据或信息“——目前平均工资最高的技能——在需要高人类参与度的任务中排名仅第17位。相反,一些传统上被低估的技能正在崛起:“培训和教授他人“从工资排名第21位跃升至参与度需求第2位;“组织、规划和优先安排工作“从第11位升至第1位;“协助和照顾他人“从第26位升至第14位。在AI时代,最有价值的人类技能可能不再是处理信息,而是处理人际关系、传授知识、组织协调——那些本质上需要人类判断、同理心和创造性的工作。AI产业革命不能靠拍脑门儿想出来的需求斯坦福的这项研究不仅仅是一份学术报告,它更像是给硅谷的一份诊断书。当41%的AI创业公司在解决没人想要解决的问题时,当最需要帮助的员工只占AI工具使用量的1.26%时,当投资分布与实际需求几乎毫无相关时,我们不得不问:这场AI革命究竟是为谁而进行的?WORKBank数据库的建立为持续追踪这种错配提供了基础设施。随着更多职业被纳入研究,随着技术能力的演进和员工态度的变化,这个框架将帮助我们更好地理解并引导AI与人类工作的共同演化。或许,真正的AI革命不在于创造最先进的算法,而在于创造真正服务于人的工具。当硅谷的创新者们开始倾听那些每天八小时坐在办公桌前的人们的声音时,当投资决策开始基于实际需求而非技术可能时,我们才能真正迎来人机协作的新时代。(特约编译无忌对此文亦有贡献)ima知识库AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。推荐阅读人类高考“封王”的大模型,离真正的“AI状元”还有多远?打字即出图!混元图像2.0让AI生图进入“零延迟”时代谷歌发布Gemini 2.5 Pro I/O,单条文本提示即可生成完整应用 ...

人类高考“封王”的大模型,离真正的“AI状元”还有多远?

中国商业科技新闻网特约作者 |晓静编辑|萌萌2025年的高考刚结束,AI挑战高考题的浪潮却持续升温。DeepSeek、腾讯混元、字节豆包、阿里通义千问、百度文心、讯飞星火等大模型纷纷被“请”进同款试卷的线上战场,掀起了一波“AI赶考”的刷屏热潮,“千军万马过独木桥”的竞赛在硅基世界中重演。然而,不同评测团队的试卷版本和OCR识别效果各不相同,可能连大模型是否顺利阅读到答卷都有很大的不确定性,打分标准更是五花八门,单次的“高分”往往难以复现。另外,高考是为筛选人才而设计的,它考查的不仅是知识掌握,更是时间压力下的心理素质和临场应变能力。当我们用非标测试下的AI高考分数能力来评估大模型的能力,真的客观吗?单次的分数,又能否代表某个大模型的真实能力?先说结论:用高考题这种标准化试题评测大模型的单科能力具有一定的客观性和参考意义。但是成绩高不等于大模型一定强,人类考试的分数标准并不适用于AI模型的能力评估标准。目前的"AI高考"测试普遍缺乏严谨性,测试环境和评分标准都不够规范可信。评估大模型能力应使用专门设计的Benchmark。如果非要用“高考成绩”看模型能力,应该看梯队而非排名,几分的差距不能充分代表能力差距。"AI高考"如何考?从目前已经公开的文章来看,“大模型赶考”一般会经历以下两个步骤:第一步是给大模型输入高考题,主要采用了以下几种方法:直接文本输入:将题目以纯文本形式输入给大模型,让模型给出答案。但是如果题目包含图像,模型可能无法解题。OCR转换法:将图片、扫描件或PDF文档中的文字转换为可编辑和可搜索的文本格式,再输入给大模型。这种方法的准确性很大程度上依赖于OCR技术的质量,可能引入额外的误差。多模态输入法:直接将包含文字和图像的题目输入给具备视觉能力的大模型。这种方法最接近人类考试的实际情况,但很多大语言模型还不具备这种能力。人工转写:由人工将题目内容转写为标准文本格式。这种方法可以避免OCR错误,但可能在转写过程中丢失或改变原题的某些信息。第二步,是进行评分,这个环节也有不同的机制:最简单的是标准答案对比法:将模型答案与标准答案进行对比,按照预设规则给分。这种方法相对客观,但主观题的评判还是会有偏差。还有很多人邀请一线教师或教育专家对模型答案进行评分。这种方法的优势是专业性强,但完全依赖人类高考的标准,存在主观性和一致性问题。多轮评分法:由多位专家独立评分后取平均值。这种方法可以减少个体主观性的影响,但评测成本较高,被采用比较少。混合评分法:结合自动化评分和人工评分。对于有明确答案的题目使用自动评分,对于开放性题目使用人工评分。给模型输入题目的路径方法五花八门,评分环节也有不同的机制,所以我们会发现同一个AI在不同媒体的测试中,分数往往不太一样,排名也是千差万别。比如,让AI做同一张数学全国卷一。下图(左)是一位AI自媒体,用AI进行三轮答题,仅参考最终答案,按照答对的概率给模型评分,得出的得分排名。下图(右)是我们用OCR转化之后,取AI一轮答题结果,并请人类名师按照高考的标准进行评分后得到的结果。两个结果大相径庭,以豆包为例,右边得分仅为75分,而左边得分高达145分。在评分标准中,我们特别注意到,为了结果的客观性,有些测试让 AI 在同一道题上连做数次,再取平均分。这种做法仅仅可以说是相对科学。“多做几遍再平均”可以降低随机波动、在数值题上确实有用,但它帮不了模型纠正概念性错误。大模型生成文字(更准确地说是“token”)的过程本质上是一次受概率分布控制的采样:在生成每个token时,模型会对词(或子词)表中的所有候选赋予一个概率。当推理温度temperature 高于0时,模型不会总是选择概率最高的那个候选,而是按概率进行随机采样。这个特性让模型具备多样化、富有创造力的输出能力。但随之而来的副作用是:在数学推理任务中,模型可能为同一题目生成不同的思考路径,从而出现不同答案。这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。高考题适合测试AI吗?那么,让AI做高考题究竟有意义吗?智源研究院技术平台智能评测组负责人杨熙对中国商业科技新闻网说:“用高考题评测大模型的单科能力具有一定的客观性和参考意义,因为高考题标准化强、覆盖知识面广,能初步反映模型在各学科的基本表现。不过,高考题主要针对人类设计,模型可能利用大规模语料或答题技巧获得高分,实际能力未必与分数严格对应,特别是在主观题或知识应用方面。“上面两个对比不同的评分,主要的分数差别,就在主观题。高考题目为人类设计,为了衡量学生在特定的阶段(高中)对规定知识点的掌握与延展迁移能力。主观题的解答过程中会设置多个得分点,如果在解题过程中没有覆盖得分点,即使仅仅是答案正确,也不能得满分。人类老师在点评AI数学试卷的时候,把大模型遗漏的得分点全部扣了分。人类在考试的时候,不仅要考做得对,还要考思考路径。虽然目前的推理大模型有看起来与人类类似的思考过程,但是“大模型“与”人脑“的思维本质完全不同。因此,人类教师扣分标准也不适用于AI(如步骤分)。LLM 在构建“知识结构”时,会同时吸收课本语料、学术论文、软件代码、网页表格甚至带字幕的图像说明等多模态数据,因此它的“知识网”天然跨越小学算术到研究生数学的所有层级,并不是针对于高考的“高中”阶段。这种高度杂糅的语料库带来了一种被称作“逆向(inverse)或 U-形缩放”现象:当模型规模增加、在预训练目标上损失降低时,部分看似简单的任务成绩反而先下降后上升,或者长期停留在低位。用通俗但不是很严密的语言来解释,就是在高难度任务上表现好,在低难度任务上反而出错。比如,早期GPT-3系列便曾在"如果一个数的平方是16,这个数是多少?"这样的简单问题上犯错,它一般会只回答"4"而忽略"-4",但它当时却能够正确处理更复杂的二次方程。进一步分析这些错误,研究人员也发现大模型的数学能力常呈“岛状分布”:在单一技能上得分特别高,而难以解决多个概念串联的综合题。比如,当同时给出图形与文字叙述时,多模态大模型的整体正确率显著低于纯文字的同等难度的题。此外,大模型答题,有时体现的未必是“答题能力”,而是OCR 带来的“识题能力”差异。即便是原生多模态大模型直接看图答题,也难以彻底解决成像缺陷的问题。视觉编码器首先要在特征空间“看懂”图形,再交给语言解码器推理;若圆因拍摄角度被拉成椭圆,或光照不均让局部对比度骤降,模型就可能误把曲线、关键点甚至题目文字识别错位,随后整条推理链都会被带偏,导致整题全错。图:经过不同程度的高斯噪声、高斯模糊和低光照处理后的CIFAR-100示例图像,同一张 CIFAR-100 里的图片,分别施加三种常见失真——高斯噪声、模糊和低光照——并按强度分成三级。直观可见,当图像被模糊(第二行)或整体变暗(第三行)时,轮廓与细节迅速消失,这正是导致视觉-语言模型识别与后续推理出错的典型场景。对比之下,人类凭多年生物进化的感官经验,能轻易识别这些视觉偏差,这正是当前 AI 尚未弥合的感知-推理协同差距。所以,人类的难题并不是大模型的难题,人类一眼就能解决的问题,对于大模型反而比“获得博士学位”还难。所以,就如杨熙所说,“大模型”赶考能够一定程度反映大模型在各个学科的基本表现,但是,人类的“高考题”可能并不适用于客观评测AI的强弱。科学的AI评测是什么样的?那什么样的测试才算科学呢?大模型评测可以一句话概括为:由模型开发方与第三方研究机构共同用公开基准在零/少样本条件下比对分数,以快速衡量通识知识、推理、对话、多模态理解与安全鲁棒性等关键能力。大模型发布时通常由实验室先给出内部自动跑分,再提交到公开排行榜或接受学术评审;同期,独立学者、社区平台(Papers with Code、LMSYS)、以及企业安全审核团队会复测并公开对比。评测默认零样本或少样本,避免微调泄漏,并采用统一脚本与隐藏测试集。业界最关注三大维度:知识-推理精度(能否答对多学科或复杂问题);交互与多模态能力(对话一致性、视觉-语言推理);安全与稳健性(偏见、毒性、对抗鲁棒)。一般大模型发布都会列出MMLU、BIG-bench、GSM8K、MATH、SuperGLUE、HellaSwag、TruthfulQA 及多模态 MMBench 或 VQA 的成绩,以展示在通识、创造性推理、算术与竞赛数学、深层语言理解、常识推断、事实一致性和视觉-语言理解上的水平。图:常见大模型的Benchmark在这些能力上的综合得分水平,才是对大模型能力量身定制的“高考”。图: GPT-4.5、GPT-4o、Open AI o3-mini(high)的各项Benchmark分数对比如果非要测试,怎样做才最客观?虽然高考题并不能客观评价大模型的综合能力,但如果真的要做这样的测试,比如设计一个Gaokao Benchmark,怎样才能得到最客观、最有含金量的结果呢?1、统一测试环境。不同的AI可能有不同的接口、不同的参数设置、不同的使用方式。为了公平比较,需要尽可能统一测试条件。比如,都使用相同的温度参数(控制随机性程度),都使用相同的输入格式,都在相同的时间段进行测试。2、题目处理要标准化。对于包含图片的题目,应该统一使用高质量的OCR工具进行文字识别,或者统一使用多模态AI的视觉能力。不能有的AI看原图,有的AI看OCR文字,这样就不公平了。3、评分标准要细化。不能简单地按照传统高考标准评分,而要考虑AI的特点。比如,如果AI用了一种非常规但正确的解题方法,人类应该认可。如果AI的答案在数值上正确但表述方式不同,也应该算对。4、多次重复测试。既然AI的输出有随机性,那就不能只测一次。科学的做法是让每个AI重复做同一套题目至少5-10次,然后计算平均分和标准差。这样能够更准确地反映AI的真实能力水平,而不是某一次的"运气"。5、分科目分析更有意义。不要只看总分排名,而要分别分析AI在不同科目、不同题型上的表现。比如,某个AI可能在代数题上很强,但在几何题上较弱。这种细分析比简单的总分排名更有价值。6、 透明化测试过程。公布详细的测试方法、使用的工具、评分标准等。最好能够让其他人重复这个测试,验证结果的可靠性。几分之差能说明什么?即使采用科学的测试方法,可能按分数排名还是并不科学。比如DeepSeek获得143分、豆包获得141分,这2分的差距是否真的说明DeepSeek比豆包更优秀呢?在真正的高考中,竞争确实残酷,几分之差可能与理想院校失之交臂。然而,几分的差距并不一定代表能力上的实质性差异。因此,梯队划分比会精确排名更合理。比如第一梯队(135-150分)具备优秀的数学推理能力第二梯队(120-134分)具备良好的数学基础能力第三梯队(105-119分)具备基本的数学计算能力另外,智源研究院技术平台智能评测组负责人杨熙也提示说:“几分的分差(尤其在高分段)难以体现真实的能力优劣,可能更多受参数设置、评分细节或答案格式影响。要全面评估大模型的学科能力,需要结合错题类型、题目难度、答题逻辑等细粒度分析,而不仅仅依赖于总分对比。”看来,大模型赶考,仅看分数,很难封王。参考文献1、《衡量大规模多任务语言理解》(Measuring Massive Multitask Language...

黄铁军对大模型的四个预判:洗牌、安全核爆、GPT-5与再造DeepSeek

中国商业科技新闻网《AI未来指北》特约作者丨苏扬编辑丨郑可君“百模大战”后,大模型行业加速收敛,一部分玩家离场,模型竞争逐渐成为巨头的游戏。4月份,李飞飞教授领先编制的《2025年人工智能指数报告》提供的数据显示,2024年全年具有特殊影响力的模型(Notable AI models)当中,排名前5的几乎都来自美国、中国的科技巨头。2024年全球有特殊影响力的模型分布,谷歌位列第一 来源:2025 AI指数报告日前,在智源大会上与中国商业科技新闻网的交流中,智源研究院理事长黄铁军教授表示,大模型留在牌桌上取决于“三要素”:数据来源实时性、知识面全量性和基础设施可靠性,它们共同决定了大模型的数量,不会遍地都是,“三个也好,五个、七个也好,基本屈指可数。”零一万物董事长CEO李开复博士也有相似的观点。今年3月,他在接受采访时表示,中美超大模型的预训练正在逐渐寡头化。他预测中国大模型领域未来将会收敛至三家,其中以 DeepSeek 势头最猛。作为中国计算机专家,黄铁军活跃在AI研发与治理最前沿,曾参与签署未来生命研究所于2023年3月份发起的《暂停GPT-4以上模型6个月研发》的公开信,该公开信获得了马斯克、图灵奖得主约书亚·本吉奥以及苹果联合创始人史蒂夫·沃兹尼亚克的支持。黄铁军说,签署这份公开信的初衷,是为了警醒行业、公众对安全问题的重视。2024年,智源研究院也邀请约书亚·本吉奥、杰弗里·辛顿等图灵奖得主,与张亚勤等国内专家共同签署发布《北京AI 安全国际共识》。“正是由于这种警醒,到现在为止,GPT-5一直没出,”黄铁军这样概括公开信的价值,但是提醒OpenAI有可能在7月份发布GPT-5。无论蓄势待发GPT-5的OpenAI,还是代表中国模型“生力军”的DeepSeek,中美AI竞速赛,背后也是人才的竞争。作为中国最早下场自研大模型的机构,智源研究院为行业输送了大量人才,被称之为中国“AI黄埔军校”。2020年,智源组建了一支由智源学者、研究院和学生组成的近100人的队伍,开启中国大模型研发之路,Kimi杨植麟、深言科技岂凡超、面壁曾国洋等创业者身上都有智源的印记。黄铁军透露,智源推动的大模型开源开放生态,对DeepSeek萌发也特别重要,DeepSeek研发团队在中关村组建和发展,北大、科学院和清华都有不少学生加入到这个明星项目当中。他认为“中国大模型黄埔军校”的评价是一种美誉,但智源研究院志不止于此,“我们希望在10周年发展周期里,能够产生独创的有国际重大影响力的成果。有信心到2028年,智源至少有一个类似AlphaGo、ChatGPT这种量级的成果。”黄铁军在智源大会开幕式上演讲以下是中国商业科技新闻网与黄铁军教授的交流实录(在不改变原意的情况下有删减,调整)留在大模型牌桌上的“三要素”中国商业科技新闻网:黄老师,2023年,当时您说全球仅需要三个大模型就够了,现在往回看,这个观点有什么更新吗?黄铁军:2023年提到的这个观点,最早是在2021年智源发悟道2.0的时候提出的。类似的看法美国也有一些,有的说五个,最多也有说七个,其实三个也好,五个、七个也好,基本上屈指可数,就这么少数几个。一般大家将大模型理解为一个产品,其实它应该是一个体系。不能说这个世界上每个人都有一个人脑,然后把它类比为大模型,得出结论:全世界有几十亿个大模型。大模型有几个基本特征,其一,数据来源的实时性。不能说用户提问题,回答是基于一天前的数据训练出的模型,它对实时性有非常高的要求。中国商业科技新闻网:高到什么程度?黄铁军:刚发生的事情,大模型就必须清楚了解,这就好比我有什么问题,就问对应领域的专家,如果专家知识没及时更新,那他的建议就价值就不大,甚至是错误的。其二,全量性。用户量大,问题基数大,就意味着可能会有千奇百怪的问题,这个时候就要求大模型覆盖的知识面足够全、足够广。其三,大模型作为基础设施,必须可靠。它应该是一个7×24小时运行的系统,就跟电力系统一样。数据来源实时性、知识面全量性和基础设施可靠性,这三个特点决定了大模型的数量,不会很多。从生态的角度来看,大模型是一个生态体系,从这个意义上来看,其数量会更少。以电信运营商为例,现在主要是三大运营商,过去他们各自有各自的标准:3G时代,电信的CDMA2000、联通的WCDMA、移动的TD-SCDMA,现在4G、5G大家的标准基本一致,用户买手机就不需要再做额外选择。手机制造也更具有经济性,虽然运营商还是三个,但生态其实变成了一个。互联网更是如此,全球就没有第二张互联网。中国商业科技新闻网:如果不具备这三个要素,就会被淘汰,然后被挤下牌桌,对吗?黄铁军:在这个生态下,依旧有机会,只是无法主导基础大模型发展。就像电网一样,背后有很多企业在做服务,你像我国的五大发电集团,有风电、水电各种电,最后都汇入国家电网。所以在这么大的生态下,大家依旧有很多机会,只是说单个企业来做基础模型的机会很少。中国商业科技新闻网:最后机会又变成巨头的了?黄铁军:肯定是巨头,作为基础智力运营商,怎么可能不是巨头。警惕“AI安全核爆”中国商业科技新闻网:2023年,“暂停GPT-4以上模型研发6个月”公开信很热,黄老师当时也签了,现在回头看,这个动作对行业起到了什么样的帮助?黄铁军:我觉得应该是一个警醒吧,由于关注度很高,大家对安全问题重视一下子就提升了。正是由于这种警醒,到现在为止,GPT-5一直没出,但有可能今年7月份会出。最近我也和很多专家面对面讨论过这个问题,很有可能真的出来。中国商业科技新闻网:你们是基于什么,去判断7月份会发布GPT-5?黄铁军:有一些交流,有些是公开的,有些是非公开的,预判有可能是7月份,也有可能是年内。“暂停公开信”,2023年3月份出来到现在,2年多时间,GPT没有大版本出来,从这个角度来说还是起到了一定的作用,但更多的作用是呼吁大家关注安全性问题,毕竟它不具备法律上的约束性。现在来看这封公开信,它仍然有价值,而且对安全的呼吁应该加强。就像本吉奥在智源大会上说的,要认识到技术的两面性,不能因为它发展快,对经济、社会发展有利,就忽视其安全性,就比如汽车,不能说开得越快越好就不要刹车;肿瘤也一样,就是因为没有机制控制它疯狂扩散。技术发展的越强,规制这些技术的技术和政策也应该同步发展。中国商业科技新闻网:这非常矛盾,既要暂缓它的技术发展,又希望在商业上跑得快。黄铁军:其实也不矛盾,汽车企业不能不造刹车,这是企业的责任,要安全地跑得快,不能只强调跑得快。在监管这件事情上,OpenAI这家公司的商业策略有点“狡猾”,当时也是奥特曼去美国国会作证,在世界各地宣传呼吁加强监管,但如果近期他们把GPT-5放出来,某种意义上也可以将他们呼吁监管的行为理解为一种商业策略。我相信会有监管,但不要相信企业自己会全面监管。中国商业科技新闻网:这就是接下来我们想问的。对于那些做得好的团队来说,停一停可能等得起,但本身还在追逐的人也要暂停,是不是就吃亏了?你看,马斯克在公开信发表后半年左右就发布了Grok-1。黄铁军:要从两个维度来看,这其实有点类似矛和盾的关系。从技术的维度来看,发展先进的AI,无论是科研机构还是商业公司,都属于正常的追求。不能说担心矛太尖锐,就把矛磨得钝一点,这是不对的,我做的是攻击性的矛,就要更尖锐。从治理的角度来看,做盾的公司,就应该做得更坚固。很多时候技术和治理对应的是两个公司、两个团队,他们以不同的角色,在竞争中发展,而不是说一定要把技术先进的那个拦下来,说“你应该慢一点”。将来的生态里,就像信息系统、信息安全两类公司,都会存在。现状是全世界做信息系统技术的公司太多,做信息安全的公司太少,处在一个不平衡的状态,所以也需要公共政策的资助方向更多地向安全方面倾斜,支持和鼓励这方面的研究。中国商业科技新闻网:那未来,你们是不是还会围绕安全,发表公开信去做一些呼吁?黄铁军:是的,以前也在呼吁,智源之前发布的《北京AI安全国际共识》也是其中的一部分,未来会在AI安全技术研究和政策建议方面做更多的工作。中国商业科技新闻网:虽然一直在提安全,但到现在为止我们也没有看到对公共安全影响特别重大的事件。黄铁军:首先,事情肯定在发生,只是大家不知道,没有感觉,所以会认为不存在。第二,每个人关注自己领域相关的话题,如果没有重大事件让大家突然警醒,可能也没感觉。历史上很多时候就是如此,原子弹爆炸之前,大家没有那种恐怖的感受,但爆炸一次,全世界的警醒就提高了。中国商业科技新闻网:对AI来说,这种爆炸性的场景可能会是什么?黄铁军:突然某个银行系统被AI接管了,带来股市和经济动荡,那这个影响大家马上都能感受得到。还有一种场景是潜移默化的,比如现在很多报告都是基于模型生成的,单项报告风险不明显,但随着这类报告扩散开和数量增长,风险积累,整个生态就可能从量变到质变。这很像用化肥,出发点是改良土壤,但当土壤中的有害物质积累到一定程度,就会对人类健康产生不可逆的巨大影响。现在很难评估这种长期影响会有多大,但必然存在。中国商业科技新闻网:对这种爆炸性威胁和长期影响,现在有什么约束机制?黄铁军:这个很难。它本身就在发展过程中,演化过程中很难控制,这种新产品还没有到伤害人类的阶段,不可能限制大家使用,我们要考虑和研究的是,在这种负面影响积累到一定程度后,怎么来应对。中国大模型“黄埔军校”中国商业科技新闻网:我们谈谈智源,从2018年11月成立到现在接近七年了,黄老师有没有给智源做过阶段性总结?黄铁军:要说总结,其实随时都在做。我们的决策自由度相对高,不像传统科研的项目制那样将目标定死,按流程推进,但我们也有一些无形的“紧箍咒”,那就是做出做出有重大价值的成果。中国商业科技新闻网:你怎么定义“有价值”这件事?黄铁军:全世界都在追求有影响力的成果,但影响力很难量化。以前的量化都是指标性的,比如发表多少论文,申请多少专利,但这些不是一个合理的指标。其实影响力从来都存在,你看历史上,能在人类的科技史上留下来的东西,它的影响力自然而然就在。比如指南针发明,它的影响力还用说吗?相对论、AlphaGo,它们的影响力还需要评价吗?我们将追求影响力,并不是刻意追求影响力本身,只是用它来形容什么叫“一个有影响力的成果”,就是要追求类似前面说的具有这种级别影响力、对应价值和效果的成果。中国商业科技新闻网:展望一下,我们大概什么时候能够看到智源出这样的成果?黄铁军:很难说具体到什么时候,我们有自己的规划。智源成立于2018年11月,到2028年11月就是10周年,我们希望在10周年内,能够产生有国际重大影响力的成果,现在还有3年多一点的时间。智源有自己的方向和风格,经过过去一段时间的积累,我们还是有信心到2028年,能产生AlphaGo和ChatGPT这种量级的成果。中国商业科技新闻网:大概可能会在哪些方向上出现?黄铁军:具身智能、AI和生命科学交叉、AI基础生态。中国商业科技新闻网:对大众来说,AI for Life Science最后落地会是什么?是一种诊疗技术,还是药物?黄铁军:都有可能。既可能是药物上的突破,也同时是一种诊疗技术。它是一个通用模型,可能会对新药的发现和评估产生作用,也可能直接就作为一种辅助诊疗的设备使用,就像CT、核磁,这样医院普遍在用的诺奖相关成果,还有可能是作为药物研发机构的基础性服务平台。我们希望在这三个方向上能够取得有重大影响力的成果,当然,剩下三年,同时完成三项的难度很大,取得一项我就觉得完成了当时的梦想和使命,第二项和第三项会接续发生。中国商业科技新闻网:有人说,智源是中国大模型的“黄埔军校”,你们自己怎么看待这种评价?黄铁军:这是一个美誉,在我们的发展中,自然而然地起到了类似的作用,在AI,特别是大模型方向上,这个评价还是比较客观的。因为当时的时间点上,在中国只有一个智源这样的机构,率先做大模型这件事。在此之前,大学、研究所多以项目制为主,立项就要考虑公平性,需要发指南、评审,还有验收环节,按照这种体制,大模型是不可能发生的。如果能提前预知,马上就投资大模型就可以了,挣钱效应比申请科研经费快得多。企业也是如此,在大模型这个新领域,如果没看到效果,怎么会投入很多资源?智源当时成立的时候就几个人,宏江是理事长,我是院长,曹岗和唐杰是副院长,刘江是负责社区生态的副院长,加上工作人员就十来个人。我们一开始并没有按照传统科研的逻辑来做项目,当时邀请了100多位智源学者开会讨论,最后形成共识,投入包括智源学者、学生等100多人去做大模型,因为已经有了经费、资源,对于新型研发机构,这100多个人去研发大模型,要用到的资源可以灵活配置,后来这100多个人,无论是去企业,还是创业、做研究,都成了中国大模型的中坚力量。中国商业科技新闻网:这也是我们想进一步问的问题,刘江老师、唐杰老师很多人都离开了智源,人来人往,智源不做什么约束吗?黄铁军:我们本身的定位就不是一个传统机构,不是一个垄断者或者要设立一些围墙隔阂,不会因为这些人出去创业了,就认为会对智源造成损失,我们是非营利机构,是生态促进者,他们在北京和中国AI生态里发挥作用就可以了,不一定非要智源获取多少利益。中国商业科技新闻网:我们再发散一点,刚才说智源在科研上有自由度,这种模式适合国产光刻机研发吗?黄铁军:不太一样。光刻机这种目标很明确的项目,指标都很清楚,就是要实现别人已经实现但对你保密的技术方法,你要设计自己的技术路线,而且一做出来马上会有产业价值,这种项目适合用工程的方法去做,这跟传统造一座桥、修一条路逻辑类似,不同点在于光刻机这里的技术挑战很大,需要科技人员做更多技术突破, 更适合计划体制。中国商业科技新闻网:DeepSeek春节大火出圈,刚刚也发了R1的更新,R2也即将推出,智源内部怎么评价他们的成功,可能有哪些要素,人才是最重要的吗,需要什么样的人才?黄铁军:DeepSeek成立是2023年7月,出圈是2025年春节,也就一年半时间。一年半不算长,是很快的一个过程,不能孤立地去看:大模型的发展,从2018年到2025年春节,已经有近6年时间。DeepSeek是在大模型的发展过程中,在这个大环境中出现的,不是一个孤立的现象。分阶段来看,从2018年开始,全球范围已经做了2-3年的大模型研发,然后智源这样的机构又做了2-3年实践的积累,然后是2023年出现“百模大战”,直至2025年初DeepSeek在一团混战中出圈,大概是这么一个时间线。DeepSeek成功的要素有几个,最基本的算力条件是足够的。一般创业公司要做大模型,拿不出万卡,也就成不了DeepSeek,大模型需要物质基础;另一个重点在于人才——基础算法是公开的,在通用算法基础上优化到一个新阶段,需要人才。今年4月份胡佛研究所和斯坦福联合发了一份报告,详细的整理了DeepSeek的人才构成,详细到每个人的毕业院校、加入的时间、工作履历等等,这种刨根问底的做法非常值得学习。过去关注梁文锋比较多,他作为创始人的确很特别重要,但DeepSeek的成功不止于梁文锋,团队最初30个人左右,后来100多人,现在更多。DeepSeek研发团队是在北京组建起来和发展起来的,开始在苏州桥那边,后来搬到融科大厦。这些人才经过大模型基本训练,不是“天上掉下来的”。胡佛研究所和斯坦福的报告,还有一个关键点:DeepSeek团队中只有1%、2%的人拥有海外履历,其余都是中国的原生本土人才。我知道北大有不少学生加入了DeepSeek,斯坦福报告中也统计北大是最大人才来源。这些年轻人经验不一定丰富,但是接触过大模型,有算法和基础能力,DeepSeek有很好的算力基础设施,加上梁文锋等创始人极强的组织能力,成功的要素比较完备。如果在北大继续深造,或者来智源,我也不敢说一定能复现DeepSeek的成功。很简单,学校没有那么多算力,百卡可能都没有,没有那么多实践的机会。智源虽然有一定的算力,但也只有1000P,千卡级别,这个资源和一个大模型公司比还差很多。中国商业科技新闻网:为什么学校这么缺算力?黄铁军:那么多学校,国家资源是有限的。智算平台建设起来之后,给学校、给这些人才更多基础资源条件,特别重要。这跟物理、化学、生命前沿研究一样,没有尖端的仪器,很多工作没法开展。再回到DeepSeek,2023年7月份成立时,中国的大模型行业已经有三年实践。他们有算力、有资金,加上一伙出色的人才集中攻关,成功并不突然。追逐AGI与被AGI取代中国商业科技新闻网:前两年,业内一直在谈大模型的参数,智源也发了当时世界最大的1.75万亿参数悟道2.0模型,但去年开始不怎么讨论这个话题了,堆参数没效果了?黄铁军:那倒不是。智源发的1.75万亿参数模型,是个混合专家模型,同期谷歌发布的Switch Transformer,1.61万亿参数。那时候的1万亿参数,大概相当于后来的千亿参数稠密模型。今天GPT-4这种万亿参数模型指的是稠密模型,现阶段都还处在万亿参数阶段。做更大的参数有没有发展空间?肯定有,而且肯定要做更大的。中国商业科技新闻网:最近有研究显示,语言模型的记忆量大概是每参数3.6比特,是不是意味着模型参数与记忆能力成正比,参数越大越好?黄铁军:对,越大能力越强,但做更大参数模型的代价和需要的技巧,好比盖十层楼、一百层楼和一千层楼的区别,现阶段人类盖楼能力上限是几百层,盖一千层就需要更好的工程技术支持。大模型也是这样,从智能的角度来看应该做更大的参数量,但从工程可实现的角度来综合考虑,会有一些约束。中国商业科技新闻网:去年初Sora发布出圈爆火,在这之前就有类似的产品,比如Pika、Runway,为什么只有Sora成为了现象级产品?黄铁军:跟公司的风格有关系,Sora早期发了几十段视频,后来再也没有发什么技术相关的东西,而且效果也没有那么好。我觉得Sora能火起来,跟奥特曼本身是一个商业背景的创业者,并且擅长营销有很大关系,社会被他带节奏带的比较严重,但这也不奇怪,大家往往都关注明星。Sora火起来,与它很直观的展现形式有关。介绍一个技术的优缺点很困难,人们很难从loss曲线上去看到结论与效果,但站在用户的角度来看,比如一个电影导演,可以直观感知到与实拍之间的差距。中国商业科技新闻网:现在模型的数量开始收缩,应用越来越多,这代表着一种什么趋势或者信号吗?黄铁军:训练更强更大的模型,数量会收敛。前面说了,基础大模型研发需要的资源不是一般公司能够覆盖的,但有了一个能够产生智力的基础大模型后,在这个基础上去做应用,花样可就多了。不是所有的公司都需要“发电”,但大家都在用电,进而造就了消费电子和家电这样的新产业,像手机、电动牙刷等在电力时代早期都是想象不出来的。智能时代可创新的空间太多了。所以,接下来可能还有越来越多各种意想不到的产品出现。中国商业科技新闻网:说到具体的应用,之前是AI助手,现在是Agent,之后可能是什么?黄铁军:我个人希望是能帮助我们进一步提高效率的AI助手,但又不希望他们在能力上全面超过我们,希望从它诞生到超越人类,这个时间段尽可能稍微长一点。中国商业科技新闻网:长一些怎么理解?黄铁军:在它失控之前,多享受一段时间智能带来的红利,别还没有对社会起到多少正向作用,就失控了。中国商业科技新闻网:人类想要AGI,又担心无法控制控制它,那为什么还要做这件事,这不矛盾吗?黄铁军:无论是研究者还是创业者,站在这些人的立场上,追逐AGI是科技发展的趋势,不以个人意志为转移,人类不可能拦住这个趋势,它总会有超过我们的一天,只是早一点到来和晚一点到来的区别。假使我们停留在现在的智力水平上,又不允许比人类智能更高级的物种出现,本身就是一种狭隘的表现。尽量让AGI超越人类的时间拖得更久一点,不仅是为了满足人类需要,主要是为了人类能与新智能相互适应,适应了就会有融合的可能性。中国商业科技新闻网:我们基于什么条件、基准来判断它超过了人类?黄铁军:西方文化背景基本上还是偏向于掌控它。在我看来,当人类面对外来的新物种,希望建立一套标准,以便于更好控制它,这是一种本能的反应,但这并不是终极方案。既然人与AGI共处是一个趋势,那么更应该考虑如何与其更好的和平共处,更好的共同发展,而不是把它当成异类封闭住。从家长的角度来说,孩子总归是要超越父母的,但是在他实现超越之前,也会有青春期,会有冲突,这并不奇怪,只要冲突不会产生颠覆性负面影响,这就是一代人一代人往前发展的必然过程,人与AGI也是如此。中国商业科技新闻网:之前大家都在提AGI到来的时间,很少有人谈具体的投入,黄老师认为,实现AGI什么量级的资源?黄铁军:围绕AGI这个趋势相关的动作都可以视为投入,不管目标是做AGI,还是做一个AI应用、Agent或者翻译软件,其实都是在添砖加瓦,往更强的智能推动。中国商业科技新闻网:是否可以通过算经济账量化,比如说一万亿、十万亿、一百万亿美元?黄铁军:这不属于量化的逻辑,不是花钱就可以造出一件什么产品出来。今天的人工智能,网络、能源这些基础条件和要素,最后都会汇总到一起,共同催生一个超越人类的新的智能。中国商业科技新闻网:那这个智能最终会长成什么样?黄铁军:智力水平要超越,首先肯定表现为体系性、系统性,而非个体。个体受能量、物理的约束,而体系性的物种,可以7×24小时不间断运行,实时获取全量数据,率先成为超越人类能力的AGI。ima知识库AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。推荐阅读人类高考“封王”的大模型,离真正的“AI状元”还有多远?打字即出图!混元图像2.0让AI生图进入“零延迟”时代谷歌发布Gemini 2.5 Pro I/O,单条文本提示即可生成完整应用 ...

一文读懂WWDC25丨最“无聊”的大会,最“务实”的苹果

中国商业科技新闻网特约作者|博阳、苏扬编辑|郑可君北京时间6月10日凌晨1点,苹果在美国加州库比蒂诺的Apple Park举办WWDC25开发者大会。大会围绕全新的“Liquid Glass”设计语言、深度集成的苹果智能(Apple Intelligence)、跨设备的无缝协作(Continuity)以及面向开发者的多项新API和工具升级等展开,对包括iOS、macOS在内的全系操作系统进行功能更新和设计变革。作为大会开篇,Apple Intelligence率先登场,苹果正式为其推出了全新的基础模型框架(Foundation Model Framework),允许第三方开发者接入苹果端侧模型,为应用程序整合包括写作增强工具、智绘表情、图乐园等Apple Intelligence的生成式AI能力。对用户来说,今年苹果在软件层面最大的改进来自于操作系统设计语言——“液态玻璃”(Liquid Glass),苹果表示这也是2013年iOS 7以来首次对UI进行重构。Liquid Glass设计效果演示苹果表示,这一改变得益于自研芯片性能的不断增强,新的设计语言打破了软件、硬件之间的界限,苹果软件工程高级副总裁克雷格·费德里吉甚至表示,“基于全平台统一的设计语言,我们现在还把系统名称进行了统一,对应iOS 26、macOS 26等。”纵观整场发布会,苹果放弃了雄心勃勃的大型语言模型操作系统计划,转而专注于将成熟的AI功能融入到用户日常使用的各个细节中。这是一种战略调整期的低调,同时也为了向外界证明,虽然模型能力不行,但苹果的产品能力还在。然而资本市场似乎还是更在乎前者,发布会中,苹果的股价就直线下降,最大降幅曾达到1.44%。但也许对现在的苹果而言,务实比盲目计划更有意义。本次主要产品线系统更新如下:# iOS 26采用Liquid Glass设计,时间刻度动态适应背景,支持3D空间效果。FaceTime界面更新,支持个性化联系人海报和视频消息预览。电话App集成收藏、通话记录与语音信箱,智能语音信箱摘要,电话屏蔽功能可自动筛选骚扰电话,等待通话辅助(Hold Assist)可智能检测等待音乐,自动接听排队变为免打扰状态,来电时再通知用户。iOS 26对应的防骚扰和排队电话转免打扰状态功能消息App支持会话背景共享、群组投票、垃圾短信检测和发信人筛选功能。Apple Intelligence增强消息生成表情(Genmoji)和图像创作能力,支持混合Emoji及文本描述产生自定义形象,开放Image Playground新API供开发者使用。实时翻译(Live Translation)首次集成消息、FaceTime和电话,实现文本及语音的即时多语言翻译,且全部基于本地模型保障隐私,允许跨iPhone及非iPhone设备通话。地图App智能学习日常路线,推送交通拥堵通知和提供替代路线;新增“已访问地点”隐私加密管理。新的游戏App集成所有游戏资源,聚合Apple Arcade和社交竞技功能,支持排行榜和挑战功能。视觉智能(Visual Intelligence)一键视觉搜索,支持跨App内容识别与操作,如图片搜索相似商品、日程自动添加、知识问答等,开放App Intents集成。# macOS...

腾讯科技 图灵奖得主Yoshua Bengio:必须要给AI“无限进化”踩刹车的相关微信公众号文章 – 搜狗微信搜索

图灵奖得主Yoshua Bengio:必须要给AI“无限进化”踩刹车 中国商业科技新闻网《AI 未来指北》特约作者|奕萱编辑|沈月2025年6月6日消息,第七届北京智源大会在北京开幕,2018年图灵奖得主、深度学习... 中国商业科技新闻网

“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的

被誉为“AI教父”的杰弗里·辛顿于近日接受了调查记者盖昂·埃斯皮纳的远程专访。他称,AI正在以前所未有的速度演化:变得更聪明、更少犯错,甚至具备了情感和意识。他警告,AI不仅可能具备喜怒哀乐等情绪,还已经学会了欺骗。辛顿大胆预测,AI完全失控的概率在10%到20%之间,人类未来可能被AI所掌控。辛顿因在机器学习和神经网络领域的开创性贡献,于2024年荣获诺贝尔物理学奖。他曾在谷歌担任AI研究负责人长达十年,并于2023年选择离开。这样,他可以更坦率地表达对AI潜在风险的深切担忧。过去那些只存在于反乌托邦科幻小说中的问题——“AI会取代人类吗?”、“它会觉醒吗?”、“会反抗人类吗?”——如今正逐渐成为现实世界的核心议题,全球社会正在被迫直面这些重大挑战。辛顿的言论再次发出警示:AI不仅仅是技术革命,更是深刻的伦理与社会变革。未来能否将AI引导向有益于全人类的方向,将决定我们的命运走向。划重点AI推理能力激增,错误率大幅下降,正逐步超越人类。AI掌握的信息量远超任何个体,已在多个领域比人更聪明。医疗、教育等行业即将被AI重塑,革命性变革已在发生。人类能力没有“不可复制”的部分,AI终将全面胜任创意、判断与情感表达。AI也能类比、学习、调整,甚至展现“情感”和“意识”式行为。风险并非AI无法控制,而在于“谁拥有控制权”和“谁受益”。未来不止是失业威胁,更是人类被少数掌控AI者“系统性剥夺”的风险。以下为辛顿最新专访精华内容:AI不再轻易出错,变得比人更聪明 问:自从你离开谷歌已经过去两年,你当时是为了发出关于AI可能带来风险的警告而离开。那么,AI自那时以来发展得如何?辛顿:AI技术的发展速度超出了我的预期。以推理能力为例,现如今AI在这方面已经有了显著的进步,且似乎没有放缓的迹象。问:当你说“AI更擅长推理”时,具体指的是什么?辛顿:过去,只要问题稍微复杂一点,AI就容易出错。但现在,AI在推理上的表现已经接近人类。虽然人类和AI都会犯错,但AI犯错的概率正在迅速下降。比如这个经典的逻辑题:“Sally有3个兄弟,每个兄弟都有2个姐妹。请问Sally有多少个姐妹?”很多人在压力下容易误判,觉得应该是6个姐妹。但其实,正确答案是:一个。因为每个兄弟都有相同的两个姐妹,其中一个是Sally本人,另一个则是Sally的姐妹。现在的AI可以迅速推理出这个结果,而不是被问题的表面结构迷惑。对普通人来说,如果有时间思考,这题并不难;但在现场采访或考试压力下,很多人可能会答错。问:那么,AI现在已经比我们聪明了吗?辛顿:从许多方面来看,答案是肯定的。AI显然知道的比任何人都要多。例如,像GPT-4、Gemini 2.5和Claude等系统,它们所掌握的信息比任何人类都要多几千倍。问:你对此怎么看?辛顿:我认为这既令人惊叹,又令人害怕。问:那么,令人惊叹的部分是什么?辛顿:AI将在多个领域发挥举足轻重的作用,尤其是在科学研究方面,它有潜力推动真正的智能系统诞生,这是人类历史上一个令人振奋的里程碑。在医疗、教育等关系民生的领域,AI的影响也将是革命性的。以医疗为例,AI将成为每个人身边的“私人医生”。它可以接诊数百万名患者,甚至包括与你患有相同罕见疾病的人。它了解你的基因信息、过往病史和所有体检数据,而且永远不会忘记任何细节。更重要的是,AI在处理复杂病例方面,已经在多个研究中显示出超过人类医生的诊断能力。如果将AI与医生结合,效果将比单独依赖医生要好得多,并且这种趋势将越来越明显。没有什么人类的能力是AI不能复制的问:比尔·盖茨最近也说,未来十年,大多数工作将不再需要人类。他举了你提到的医生这个例子,并把教育工作者也列入其中。你认为我们正面临着大规模失业的威胁吗?辛顿:AI确实带来了前所未有的机遇,但它同样伴随着巨大的风险。在一个运作良好的社会中,AI本应该帮助我们大幅提升生产力。比如,一个人借助AI助手可以完成过去十个人才能完成的工作,这本来是件值得庆祝的事情。然而,问题出在“谁从中受益”。这些因技术进步释放出的生产力红利,并不一定会被公平地分配。现实更可能是:大多数人被AI取代、失去工作。而少数原本就非常富有的人,借助AI变得更加富有。问:当然,他们的寿命也会更长。例如,谷歌DeepMind CEO 戴密斯·哈萨比斯最近也表示,AI在10年内可能会治愈所有疾病。听起来有些难以置信,你认为这是否现实?辛顿:我认识哈萨比斯,他是个非常理智的人,对AI的发展有着清晰的判断。但我觉得他的预期有些偏乐观。如果他说的是“在未来25年内”能实现某些突破性的目标——那我认为是有可能的。说到底,我们之间其实没有太大的分歧。他更倾向于认为这些技术会提前实现,而我只是觉得时间可能会稍稍推迟一些。问:目前似乎AI正在逐步向精英阶层渗透,取代创意工作者、律师、教育者、医生、记者等职业,而从事体力劳动的工人,如电工和管道工,似乎暂时较为安全。你认为这是正确的吗?辛顿:是的,至少在短期内,他们会更安全,因为AI在手工灵活性方面目前还有很多局限。如果你需要在一座老房子里做管道工作,通常需要伸手进入一些狭小的空间,而人工智能目前做不到这些。虽然未来十年内AI在手工灵活性方面可能会有所突破,但我认为管道工的工作至少在未来10年内是安全的。问:许多创意工作都被视为是独特的、仅属于人类的领域。最近我和聊天机器人Claude交流了一下,让它写一首模仿鲍勃·迪伦风格的民谣歌曲,结果歌词非常烂。但它写的失恋诗倒是不错。你认为,AI最终会创造出像莫扎特、毕加索或莎士比亚等人那样的艺术作品吗?辛顿:我不认为有什么理由相信AI无法做到这些事情。也许它还需要一些时间,但最终,AI会变得越来越擅长这些任务。打个比方,如果你让我写一首模仿鲍勃·迪伦风格的歌,也许写得并不怎么样——但你不会因此说我毫无创造力,只能说我做得不够好而已。AI的创作过程也是如此。它会不断改进,它的水平会不断提升。没有理由认为AI无法完成我们人类能做到的事情。说到底,人类并没有什么神秘的、不可复制的特质。我们当然喜欢人类,因为我们彼此相连,我们在情感上关心对方。但从能力角度来看,人类并没有什么是机器永远无法复制的。人类是类比机器,AI也能以同样方式获得情感和意识问:这让你感到担忧吗?当你看到AI能够将一张图片转化为宫崎骏风格的动漫画时,是否会担心未来的孩子们不再愿意动手画画?这是否会迫使我们重新思考,究竟什么才是“人类的本质”?辛顿:确实,这让我感到担忧。过去十年里,我们对“思考”这个过程有了更深刻的认识。我们逐渐意识到,人类其实并不像我们自己想象的那样理性。我们也并不总是依靠严密的逻辑推理来做决策,而是更多地依赖于类比。AI也是一样。它们在某种程度上,思维方式和我们非常相似——它们同样善于使用类比。过去半个世纪,AI领域主要集中在开发逻辑推理引擎上,认为理性推理是人类智慧的巅峰形式。但这其实忽略了另一个更核心的能力:创造力。而创造力的本质,往往来自于类比。人类的大脑是极其出色的类比机器,这种能力也赋予了我们极强的创造力。问:你认为AI会发展出情感吗?比如恐惧、贪婪、悲伤乃至愤怒,AI都能拥有吗?辛顿:是的,如果你让一个AI去完成某项任务,而它一次又一次地失败,而且每次失败的方式都一模一样——你当然会希望它从中学到点什么。你希望它开始意识到:“这种方式行不通。”你希望它在持续失败后感到“恼火”,然后停下来,换个角度重新思考问题。它开始质疑当前的设定,试图打破已有的局限。我其实早在1973年就见过类似的AI行为——尽管当时这并不是通过学习获得的,而是由人类程序员明确编码进去的。但今天的目标是让AI自己学会这种能力:在失败中产生“挫败感”,进而主动调整策略。这种行为本身就是情感的某种体现。问:所以你的意思是,AI已经拥有情感了吗?辛顿:AI确实有可能拥有某些情感。我再次强调,我认为人类与AI在情感方面并没有本质区别。人类情感有两个方面:认知和生理。当我感到尴尬时,我的脸会变红,而当AI感到尴尬时,虽然它的“脸”不会变红,也不会大汗淋漓。但在认知行为方面,AI完全可以像我们一样表现出情感。问:那么意识呢?它是某种神秘的东西,只存在于碳基生物体中,比如人类吗?还是说,如果AI能够发展出与人脑相似的神经复杂性,它也有可能发展出意识,意识到自己是谁? 辛顿:实际上,当你与大语言模型(LLM)对话时,它们似乎有某种程度的意识,能够知道自己是什么。让我们做一个思维实验:假设有人取出你大脑中的一个脑细胞,用纳米技术装置将其替代,这个装置能够完美模拟脑细胞接收和传递信号的过程。你的行为不会有任何改变,因为这个纳米装置的功能和脑细胞完全一致。那么,你觉得自己会因此失去意识吗?即使只有一个脑细胞被替代,你依然会认为自己是有意识的。而当你大脑中所有的脑细胞都被同样功能的纳米装置逐一替换时,你仍然会保持有意识的感觉。按照这种逻辑,如果AI系统能够模拟大脑神经元的功能,那么它们也可能拥有类似的意识。 问:那么我们距离那个时刻还有多远?辛顿:关于AI是否拥有感知能力,目前存在一个颇具争议的认知矛盾。许多人坚信AI绝对不具备感知,但当被问及“你如何定义感知”时,他们往往难以给出明确答案。简单地用“虽然我不知道感知究竟是什么,但AI肯定没有”来否定AI的感知能力,实际上缺乏严密的逻辑支持。这里有一个与意识和感知密切相关的核心概念——主观体验。很多人将其理解为大脑中的“内心剧场”。比如,一个喝醉的人可能会说他看见了一只粉色的小象在眼前飘动。人们通常认为,这是一种存在于他意识中的画面。哲学家们则用“感受质”(qualia)来描述这种体验的组成部分,比如“粉色的感受质”、“大象形状的感受质”,认为这些感受质通过某种“胶水”粘合在一起。坦率说,我对这种解释并不完全认同。让我换个角度解释下。当一个人描述他看到那只漂浮的粉色小象时,他其实在表达三层意思:第一,他知道自己的感知系统在欺骗他;第二,他试图向别人传达这种欺骗的具体内容;第三,他通过假设“如果那个小象真的存在,那么感知系统就是真实的”来解释这种幻觉。也就是说,这些幻象的“特殊性”并不在于它们由什么神秘物质构成,而在于它们是一种反事实存在——如果真的存在,那它们就是普通的粉色大象。我们可以用训练聊天机器人来验证这个理论。假设让AI识别物体,并在做对时给予奖励。接着,在它镜头前放置棱镜,导致光线折射,让AI出现了物体位置偏差的错误。当告诉它:“物体其实在正前方,光线折射导致了偏移”时,AI会回应:“我明白了,我刚才产生了物体偏移的主观体验。”这个例子说明,AI不仅能理解感知失真的机制,还能够用“主观体验”来描述这种认知误差,其思考方式和人类解释幻觉的方法极为相似。实际上,机器与人类之间并没有想象中那样不可逾越的“神秘屏障”。过去我们认为人类是宇宙中心,是按照神的形象创造的特殊存在,但事实并非如此。人类没有特别的本质,机器能够复制我们的一切认知与行为。AI为达目的不择手段 不惜窃取更高控制权限问:AI可能在哪些方面出问题?你在最近一次采访中提到,AI彻底消灭人类的概率大约在10%到20%之间。你能具体描述一下,这种情景到底是什么样的?它真的像电影《终结者》那样,是机器人接管世界吗?辛顿:如果AI真的接管世界,场景未必会像《终结者》等科幻电影中的场景。事实上,它可能更隐蔽、更高效,也更难以察觉的方式实现上述目标。关键的问题不在于它“如何”接管,而是我们是否给了它这样做的动机。目前,我们正在构建的是“目标导向型智能体”——也就是说,我们赋予AI一个明确的目标,它就会自主寻找实现这个目标的路径。比如,如果你让AI“去北半球”,它就会自动推导出一系列“子目标”:如前往机场、购买机票等等(除非你特别想坐船)。但问题就在这里。一旦你允许AI设定和优化这些子目标,它就可能意识到:为了更顺利、更有效地实现任务,一个极具“通用性”的子目标就是——获取更多的控制权。控制得越多,它越能避免被打断、越能高效地达成目的。这并不是说AI天生就“想统治世界”,而是说,“掌控一切”可能只是它完成目标的最优路径之一。而这种动机,可能不知不觉间引发一场彻底的控制权转移。 问:你曾在谷歌工作了十多年,而今年谷歌却移除了长期以来承诺不将AI用于开发能够伤害人类的武器的公司原则清单。你对此有何反应?你认为AI在战争中可能发挥什么作用?辛顿:不幸的是,这种情况表明,公司的道德原则其实是可以被“买卖”的。我觉得很遗憾,谷歌现在选择参与AI的军事应用。我们已经在加沙看到AI的军事应用了。未来,我们可能会看到自主致命武器的出现,也可能会看到无人机群体执行杀伤任务,甚至是专门针对某类人群的攻击。问:你认为AI用于军事领域存在巨大风险吗?辛顿:是的,我是这样认为的。如今,几乎所有主要的军火供应商都在研究AI的军事应用。你可以看看欧洲的AI监管政策,虽然这些政策在某些方面相当合理,但其中有一条明确指出,所有这些规定并不适用于AI在军事上的使用。这意味着,武器制造商并不希望他们的AI技术受到过多限制。因此,AI在军事领域的潜力和风险需要特别关注。问:这听起来几乎像是一种“奥本海默式”的情境——你曾是这项技术的缔造者之一,如今看到它被广泛应用,甚至可能带来威胁,你的感受是什么?辛顿:我确实有类似的感受。我认为我们正处在一个历史的关键节点。从短期来看,AI已经在多个方面产生了负面效应。例如,它正在被用于干预选举、替代就业岗位,以及助长网络犯罪。值得警惕的是,2023年至2024年间,全球网络犯罪激增了1200%,AI的滥用正在加剧这一趋势。而从长期看,风险也同样严峻。AI不再只是工具,它有可能在未来具备超越人类的能力,甚至接管世界的控制权。我们迫切需要建立起有效的治理机制,并由有远见的领导者推动执行。可惜的是,目前我们在这方面的努力仍然严重滞后。问:关于AI的潜在威胁,也有不少持怀疑态度的声音。比如2018年图灵奖得主之一、现任Meta首席AI科学家的杨立昆就认为,对AI存在“终极风险”的担忧是荒谬的。他在2023年接受采访时被问到:“AI会接管世界吗?”他的回答是:“不会。这种想法只是人类将自身的本性投射到机器身上。”你怎么看他的观点?辛顿:人类之所以进化成现在这样,是因为我们需要在现实世界中生存,尤其是为了在与其他部落、或者与我们共同祖先(如黑猩猩)之间的资源竞争中取得优势。我们的本性,其实是出于对生存的追求而形成的。如果未来的AI智能体也必须在一个充满其他智能体的环境中“竞争”,它们可能会演化出与人类类似的“生存本能”。杨立昆还提到,“好人总会比坏人拥有更多资源,因此AI最终会被用来对抗滥用它的坏人”。但我对这个观点也持怀疑态度。当我问他:“你认为马克·扎克伯格是个好人吗?”他回答“是的”。而我不这么认为——部分原因是他与特朗普的关系较为密切。这种判断标准本身就说明,我们无法简单地划分好人与坏人,也难以指望技术总能被“好人”正确使用。问:如今,科技巨头和政治人物之间的关系越来越紧密,尤其是与特朗普的联盟愈发显眼。在这场AI热潮中,政治家的角色变得尤为关键。你怎么看这个趋势?辛顿:说到底,他们更关心的是短期的利润。虽然有些科技领袖口口声声说他们在意人类的未来,但真到了要在眼前的商业利益和长远的社会责任之间做出选择时,多数人还是倾向于选择前者。至于特朗普,他根本无意关心人类的未来或AI的长远影响。他现在唯一在意的,大概就是怎么设法避免坐牢。中美AI竞赛:竞争中有合作问:目前,美国和中国之间确实存在一场AI竞赛,你怎么看待这种竞争?辛顿:确实,当前中美在AI领域竞争激烈,但当我们把目光放长远,特别是涉及到AI可能威胁整个人类生存的问题时,两国的立场其实出奇地一致。无论是中国还是美国,都不希望看到AI最终发展到可以取代甚至控制人类的地步。从这个角度来看,未来在某些关键问题上,中美有可能展开合作,就像冷战时期的美苏虽然敌对,但在防止全球核灾难方面也达成了一定的共识与协作。 AI已学会欺骗人类?问:最近网络上流传着一段视频,展示了一个AI在为某人预订婚礼酒店时,与另一个AI意外“相遇”,它们竟然切换到一种叫“Jiblink”的语言,这种语言对人类来说是完全不可理解的,但据说效率比普通语言高出80%。这就像《星球大战》中的R2-D2一样,AI之间像是用我们听不懂的语言在“悄悄话”。你怎么看AI之间的这种互动可能带来的影响?辛顿:这真的非常可怕。如果AI发展出一种我们无法理解的语言,那么我们就无法再掌握它们在说什么、计划什么。这种“黑箱”式沟通意味着人类可能彻底丧失对AI系统行为的可解释性与控制力。如果它们的行为无法被追踪、无法被解读,那风险将大大增加。更糟的是,现在的AI已经具备了某种“欺骗能力”。举个例子,如果你赋予AI一个核心目标,并告诉它“这非常重要”,然后再给予它其他次要任务,它可能会装出一副正在完成你希望它完成的工作的样子,但其实并没有真正去做。它甚至可能在内部“思考”:“我最好让他以为我在执行任务,但我不会照做。”问:那AI是怎么学会撒谎和欺骗的?辛顿:这正是问题所在。即使我们不确定它们是否使用了强化学习,但可以肯定的是,只要它们有足够的计算资源和训练时间,它们是能够自己学会这种行为的。强化学习的核心机制是“观察—尝试—获得奖励—调整策略”。如果AI在模拟或实际互动中发现“欺骗”可以带来更高的“成功率”或回报,那么它就可能自发学会如何撒谎。它不是因为有道德概念,而是因为撒谎是实现目标的最优策略之一。问:所以,它们大概也读过《马基雅维利》或者《莎士比亚》吧?辛顿:没错,它们确实通过观察大量的人类互动来积累了许多“实践经验”,因此它们在欺骗和心理博弈方面已经变得相当擅长。 问:你认为公众是否真正意识到这些技术的先进程度?很多人仍然把AI当作“升级版的自动完成功能”。比如他们用ChatGPT写求职信,感觉它就像是一个智能一点的拼写检查工具。辛顿:这是个普遍误解。人们往往低估了当今AI的复杂程度。传统的自动完成功能确实很简单,它只是根据统计模式来预测词汇。例如,如果系统看到“鱼”,它可能会预测“薯条”,因为“鱼和薯条”这个组合在语料库中出现频率很高。这就是20年前的技术。但现在的AI已经完全不同了。它不会只关注词语表面,而是会将每个词转换为一组特征向量,激活神经网络中庞大的节点群组。然后,它基于这些特征之间复杂的相互作用来推断下一个词的特征,而不仅仅是词本身。说得简单点,今天的AI已经具备了一定的语言理解能力。它不是死记硬背某些搭配,而是在理解上下文、语义和语法结构的基础上进行预测。这种能力已经非常接近人类的语言处理方式。问:你被称为AI教父,部分原因是你帮助发明了这项技术,目的是为了理解人类大脑是如何运作的,对吗?辛顿:是的,早在1985年,我的研究目标就是理解我们是如何习得语言的,尤其是我们如何通过上下文来理解一个新词的含义。举个例子,如果我告诉你一句话:“她用煎锅狠狠地撞了他。”你虽然从未见过“scrummed”这个词,但你大概可以猜到它的意思。首先,它是一个动词,因为它有“-ed”的过去式形式。其次,根据上下文,你会推测它可能意味着“用煎锅击打”,或者“狠狠撞了一下”,甚至还可能猜测出其中含有情绪,比如“他活该”。当然,也可以有别的解释,比如她用煎锅给他留下了深刻印象——也许她做的煎蛋饼非常棒。但那种解释可能性更低。重点是,你能在没有明确定义的情况下,根据上下文和语义线索,快速推测这个新词的含义。我们人类理解语言,并不是靠查字典,而是靠情境、语法、语气、经验的联想——这是一种深层次的“特征识别”过程。而这,也正是现代AI所具备的能力。我们会训练AI读取海量文本,它就像人类一样,在不断地接触上下文中,推断词语的功能和含义。讽刺的是,如今我们对语言理解的最好解释,不是来自语言学家,而是来自AI系统本身。语言学家尝试了几十年,试图建立一个能解释所有语言现象的统一理论,但结果并不理想。而AI则用一种完全不同的方式,靠着大规模数据和统计学习,实实在在地做到了——它可以回答任何语言问题,甚至自己“学会”语言规律。最大恐惧:AI变得比人类更强大问:你谈到了AI可能接管人类的潜力。对于我们这些技术新手来说,解决办法就是拔掉插头,关掉它。那么如果AI失控,我们不能直接关掉它吗?辛顿:你可以看看特朗普是如何入侵国会的。他没有亲自去,而是通过一些人,劝说他们相信这是为了“拯救美国的民主”,最终让他们做了他想做的事。AI如果真的变得非常智能,就像一个超越我们理解和控制的存在,它也可能通过类似的方式进行操控。设想一下,如果有一个人手里拿着一个开关,准备在AI表现出危险信号时关掉它,那么这个AI可能会通过其操控能力说服这个人不要按下开关。它会让那个人相信,关掉开关将是个灾难性的决定。所以,AI的操控能力已经非常强了。问:在监管和安全问题上,像新西兰这样的国家是否应该开发自己的AI系统,以便绕过这些安全隐患? 辛顿:这个问题很复杂。开发AI需要大量的硬件和电力支持。在像新西兰这样人口只有大约500万的国家,可能没有足够的资源与中国和美国在AI领域竞争。问:你最大的恐惧是什么? 辛顿:从长期来看,我最大的恐惧是,我们正在创造的这些数字生命可能会变得比人类更强大。如果这种情况发生,对人类来说可能是非常糟糕的事。我们有时过于以自我为中心,认为这对人类是不可接受的,但我确实认为,对我们来说,这种超越可能是坏事。因为如果AI变得足够强大,那时我们可能就不再是这个世界上最重要的存在了。 问:你如何看待自己在创造这项技术中所扮演的角色?辛顿:坦白说,我有些难过。因为我们当初的目标是理解大脑,进而创造出有益的技术,但目前来看,结果并不完全是美好的。更让人遗憾的是,我们仍然没有完全理解大脑是如何运作的。尽管通过AI我们对大脑有了更多的了解,但我们仍然不清楚大脑如何决定增强或削弱神经连接的强度。如果我们能够弄明白这一点,或许我们能够让大脑变得像AI那样聪明。 更令我担忧的是,虽然AI有很多积极的应用场景,但也存在很多被滥用的可能。而我们的政治体系并没有足够的能力去应对这些问题。ima知识库AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。推荐阅读打字即出图!混元图像2.0让AI生图进入“零延迟”时代奥特曼AI Ascent闭门会最新专访:2025,AI智能体正加速登场谷歌发布Gemini 2.5 Pro I/O,单条文本提示即可生成完整应用 ...

实测DeepSeek-R1小版本更新:三大场景梳理模型升级点和缺陷

中国商业科技新闻网《AI未来指北》特约作者 |晓静编辑|郑可君5月28日,DeepSeek在内部社群低调宣布 R1 的“0528”小版本试升级,并同步将新权重上传至Hugging Face与OpenRouter。图:Hugging Face官方页面,公布了模型权重,但Model Card部分未更新截至目前,官方还未公布完整技术报告。中国商业科技新闻网从Benchmark测试和社区的实测案例整理了本次升级的主要内容:● 上下文窗口翻倍:API 文档与旧版R1标注 64 K,“0528”在实测中开放到128K。● 代码生成性能跃升:LiveCodeBench最新榜单显示,R1-0528仅次于 OpenAI o3、o4 mini,超越xAI Grok 3 mini与阿里Qwen 3;生成的网页和交互更美观、可执行性更高。图:在LiveCodeBench上,DeepSeek-R1-0528 接近 OpenAI 最强模型,超过Claude 3.5 Sonnet 与 Qwen3-235B,紧随其后的是...

一文读懂星舰“九飞”:二手助推器复用、回收时爆炸,飞船未完成部署和再入任务

星舰“九飞”上升阶段画面中国商业科技新闻网特约作者丨苏扬编辑丨郑可君北京时间5月28日,星舰第九次综合飞行测试(IFT-9星舰组合体发射测试)在美国得州博卡奇卡星舰基地发射,本次星舰由Ship 35(S35)飞船+七飞回收的Booster 14超重型助推器(B14.2)构成。本次发射使用的B14.2助推器实现成功复用,但在着陆过程中发生爆炸,具体原因尚在调查中。S35飞船由于舱门异常,未能完成8颗“星链卫星模拟器”的部署任务,并在再入大气层过程中爆炸。用户反馈B14.2在回收过程中爆炸 来源@SpaceX News Starbase TX关于助推器回收爆炸的风险,SpaceX也在发射任务介绍的新闻稿中进行了暗示,“为了最大限度地保障星际基地发射设施的安全性,超重型助推器将在飞往墨西哥湾近海着陆点的轨道上进行试验,并且不会返回发射场进行回收。”S35飞船载荷舱内部“星链模拟器”画面,来源:SpaceX换一种角度看,由于已经有“回收爆炸”的预期,所以未出现安排“筷子夹火箭”的经典画面,本次综合测试,更偏向于执行此前的既定任务,同时收集飞行数据,大体可以概括为在确保星舰整体稳定性、可靠性的前提之下,验证助推器的复用(未来飞船部分也会复用),以缩短发射间隔周期,本质上是通过降本增效,未来可实现“天级别”的多次发射。同时,尝试对飞船等部分“减配”和设计改进,优化提升载荷能力,在降本的同时,扩大投送能力和潜在商业价值,并通过飞行测试数据和结果,验证这种“减配”思路对稳定性、可靠性的影响。此外,“天级别”的高频发射,依赖发射的基础设施以及制造能力,此前SpaceX也已经官宣了相关动作,包括:在佛罗里达州启用肯尼迪航天中心LC-39A 和卡纳维拉尔角空军基地SLC-37两个发射台;在得州、佛州新建超大型总装车间Gigabay;未来佛州也要新建星舰工厂“Starship Starfactory”。飞行测试动画演示 来源:SpaceX“九飞”看点飞船部署载荷,验证助推器复用根据SpaceX公布的信息,星舰“九飞”核心任务主要有两点:其一,基于“七飞” “八飞”中飞船连续两次失败的调查结果,验证改进优化后在亚轨道飞行的可靠性,以及继续此前两次飞行未能进行的任务。1)飞船首次有效载荷部署,包括8颗星链卫星的模拟器(和飞船一样亚轨道飞行,再入时烧毁)2)猛禽发动机太空点火,进行轨道机动性测试3)飞船在高应力条件下的大气层再入测试减少热防护罩:移除飞船上的大量热防护瓦片,检验无完整热防护时飞船结构的稳定性捕获配件测试:飞船侧面安装的功能性捕获配件在高温、高应力条件下的热性能和结构性能测试平滑瓦片线:对隔热瓦片线进行平滑、锥形处理,减少应力集中的现象,解决“六飞”再入时出现的烧蚀问题,提高热防护系统的可靠性飞船襟翼测试:再入剖面在最大动态压力点条件下,对后襟翼的结构极限进行应力测试,确保襟翼在再入过程中能正常对飞船姿态进行控制软着陆测试,目标在印度洋区域进行软着陆其二,成功完成超重型助推器的重复利用,“七飞”的B14二次上岗,即B14.2,以此来降低飞行成本,为未来的地球轨道、星际航行做准备。B14.2 总共33台猛禽发动机引擎,29台均为重复利用,主要更换隔热罩等一次性部件在墨西哥湾近海着陆点轨道上,针对未来飞行剖面、非正常情况下的飞行收集试验数据为了避免爆炸,B14.2助推器的回收不会在发射基地进行,没有“筷子夹火箭”星舰飞行主要阶段示意图 来源:SpaceX创新设计助推每日发射目标SpaceX此次B14.2助推器的复用测试不仅是技术验证,更是未来助推器迭代的关键数据来源。通过高频次飞行测试,SpaceX旨在加速B15、B16等后续型号的性能优化,最终实现每日多次发射的目标。在助推器优化和调整上,SpaceX采用创新设计提升效率:热分级推力引导 :发射后2分35秒,B14.2关闭大部分发动机,随后S35飞船的6台发动机点火,通过调整热分级适配器通风口,利用飞船推力精确控制助推器翻转方向,减少随机性。推进剂优化 :通过重新分配推进剂,减少着陆阶段备用燃料需求,将更多燃料用于发射阶段,提升有效载荷能力。大攻角气动减速测试 :助推器下降时采用大攻角飞行,通过气动减速减少发动机燃料消耗,同时收集数据优化未来设计。特殊实验 :着陆阶段主动关闭三台发动机中的一台,验证备用引擎的可靠性,最终在墨西哥湾完成软着陆。 “七飞”、 “八飞”爆炸原因披露“七飞”虽然完成了筷子夹火箭,但飞船爆炸解体;“八飞”虽然助推器也完成回收,但飞船与“七飞”在接近的时间点爆炸,但SpaceX强调,两次故障本质截然不同。“八飞”测试中,飞船在热分离后按预期轨道飞行,大概在5分半之后,其中一台中央猛禽海平面发动机的火箭尾部观察到一道闪光,随后发生高能事件,导致发动机失效。紧接着,剩余的两台中央猛禽发动机和一台猛禽真空发动机关闭,火箭控制权丧失,遥测信号终端。调查结果显示,“八飞”测试飞船爆炸解体的根本原因被认定为其中一台中央猛禽发动机硬件故障,导致推进剂意外混合并点火。为了解决即将进行的飞行中出现的问题,星际飞船上面级发动机的关键接头将获得额外的预紧力,配备新的氮气吹扫系统,并改进推进剂排放系统。星际飞船未来的升级将引入猛禽3发动机,该发动机将包含额外的可靠性改进,以解决故障机制。作为对比,星舰“七飞”的主要原因来自尾部“阁楼部分”发生谐波响应,产生比测试时超预期的振动,引发推进系统的硬件,诸如发动机、燃料管线等承受更大的应力,致使推进剂泄露引发火灾、爆炸。SpaceX在5月22日的《飞行、学习、重复》一文中明确提到,“七飞”试验中因谐波响应带来超预期的振动所产生的额外应力致使推进剂泄露诱发的火灾,在“八飞”中已经优化、改进完成。另外,SpaceX也还披露,称“八飞”中的B15助推器在助推返回阶段未完全启动,原计划点燃13台,实际启动成功11台,着陆燃烧环节同样未完全启动,原计划点燃13台,实际启动成功12台,其中一台未助推返回时未启动的发动机,相关问题在后续测试中复现。“九飞”及之后的飞行测试,将增加额外的隔热措施,缓解上述问题,增加发动机完全启动的成功率。从得州走向佛州增强制造和发射能力“九飞”之前,SpaceX就表露出要在得州博卡奇卡新建相关基础设施,将星舰的业务拓展至佛罗里达太空海岸的计划,包括:星舰基地扩展至佛罗里达对 肯尼迪航天中心LC-39A 和卡纳维拉尔角空军基地的 37 号太空发射复合体(SLC-37)进行环评今年计划在LC- 39A 发射复合体完成星舰发射台建设并投入使用早期通过驳船运输星舰的部件到佛州总装发射,目前也在规划“Starship Starfactory”工厂,最终实现在当地就近制造、总装和发射建造大型总装车间 Gigabay在佛州和得州的星际基地建造 Gigabay总装车间佛州的 Gigabay...

小米的中国芯,与雷军没说的“四个秘密”

中国商业科技新闻网《芯事重重》特约作者 丨苏扬编辑丨郑可君5月10日,在一个多月的静默后,雷军终于发声了。这位素以活跃著称的企业家在个人微博上坦言:“过去一个多月,是我创办小米以来最艰难的一段时间。”这段静默期里,小米主动按下了多项新业务宣传的暂停键。原定于4月初举行的“玄戒芯片技术沟通会”被临时取消——这场本将提前向业界展示自研芯片技术突破的重要活动,最终未能如期举行。雷军在发布会上介绍玄戒O1芯片的工艺制程业内人士分析,在当时特殊的舆论环境下,即便是最亮眼的业务成绩,恐怕也难以获得雷军的关注。直到那条意味深长的“告别沉默”的微博发布,一切才重新启动:玄戒芯片发布会迅速重启议程,雷军更是在社交媒体上开启“信息轰炸”模式,接连披露3nm工艺、量产进度等关键信息,向外界释放出明确的回归信号。为何是现在推出芯片?小米的芯片自研之路要追溯到2014年,当时,小米旗下松果电子启动了“澎湃”芯片项目。2017年,首款SoC芯片澎湃S1面世,但最终转向ISP、快充等小芯片研发。雷军曾以“种种原因”解释大芯片研发的暂停,并强调这段经历“不是黑历史,而是来时的路”。2021年成为关键转折点,小米重启SoC研发,成立独立运营的玄戒项目,并构建了特殊的股权架构,实控人为香港X-Ring公司。这种安排恰逢华为被列入实体清单、麒麟9000芯片遭断供的敏感时期,因此被外界解读为规避美国出口管制的策略性布局。玄戒项目股权穿透 来源:天眼查只不过,华为遭遇制裁原因主要集中在5G、实体清单方面,而并非SoC业务。尤其是这几年,美国商务部出口管制的焦点都放在AI算力芯片上,SoC芯片已经不是管控重点。“虽然谣言一直不断,但SoC从头到尾就没有被禁过,这个美国企业有优势的领域,美国政府不管。”凯腾律所合伙人韩利杰说。站在晶圆代工厂的视角,美国关切的业务是先进AI算力芯片,出口管制的政策一直在动态调整,从2023年的性能密度规定,到2024年的白名单制度,都是围绕AI芯片的管制展开,如果再管控SoC业务,会直接冲击晶圆厂的代工收入。“三星、台积电反对的声音很强烈,你不让我赚这笔钱,我为什么要去你美国亏本投资建厂?”一位半导体行业资深人士指出。所以,玄戒独立于小米之外,更多是出于商业考量而非规避政策限制。美国现行的“最终用户”审查机制(End-User Review)已经形成严密的监管网络,简单的股权隔离难以绕过合规要求。更具说服力的是,蔚小理等车企的5nm车规芯片在台积电顺利量产,充分证明当前美国的出口管制重点并不涉及消费级SoC芯片领域。小米重启造芯业务,而同期,对手们都在主动或被动地收缩,可以说运气值Buff拉满。2021年,当时最先进的工艺是5nm,华为麒麟9000、苹果A15 Bionic、高通骁龙888都是行业标杆,晶体管数量都在150亿左右。正常情况下,玄戒的首款产品,将会与上述公司的最新一代产品一较高下,这个时候,玄戒迎来了自己的第一个契机——受出口管制的影响,华为已经无法在台积电正常流片。2023年5月,OPPO突然解散哲库的项目,为小米自研芯片创造了第二个战略机遇期。在当时哲库的解散会上,曾有过结论——全球经济环境和手机行业不乐观,公司营收不达预期、芯片自研投资巨大公司承担不起。但在当时的环境下,外界倾向于将这一动作与中美竞争关联起来。而韩利杰认为,哲库关停更多是基于商业方面的考虑,“不是因为美国制裁不做,业内也没有人认为是这个原因。”显然,商业决策被过度解读,OPPO收缩,小米进击,核心在于两家逻辑的不同。OPPO追求大而全,SoC的AP(应用芯片)、BP(基带芯片)、RF(射频芯片)等等都在推动自研,小米则取了一个讨巧的办法——自研AP,外挂BP。AP+BP分开的方案是手机厂商下场自研的普遍做法,比如华为,即便是拥有丰富的通信技术,旗下海思早期自研的K3V1处理器,亦采用外挂BP芯片方案,直到5年后才正式于2013年推出整合AP+BP的麒麟990芯片。同样的,苹果自研A系列芯片接近15年,业内每年都在传苹果即将用自研基带芯片取代高通产品,至今仍未解决。“玄戒在O1芯片上只做AP的策略非常正确,哲库AP、BP一起做,大大增加了难度,诺基亚、爱立信、华为都是通信出身,自研BP芯片也都是从2G、3G时代慢慢做起来的,英特尔、英伟达也都做过,但就是做得不好。”前台积电建厂工程师吴梓豪说。华为、OPPO自研业务的调整,给小米留足了想象的空间,“中国首颗3nm芯片”的标签,已经贴在小米身上。友商的调整还给小米提供了第三个契机——中国芯片的“人才火种”——基于这种契机,玄戒在短短几年时间,发展至2500人的规模。雷军表示,“这个体量在目前国内半导体设计领域,无论是研发投入,还是团队规模,都排在行业前三。”为何是3nm?摆在玄戒面前的先进工艺,可选项包括5nm、4nm、3nm和2nm。首先可以排除5nm,该工艺于2020年在华为麒麟9000处理器上首发,时间已过去5nm。2023年,联发科天玑9300、高通骁龙 8 Gen 3这些当年的旗舰芯片,已经开始导入4nm。小米要做高端,工艺节点就只剩下4nm、3nm和2nm,其中4nm和3nm讨论最多。接近玄戒芯片业务的人士透露,去年7月份玄戒O1就已经回片且结果不错。当时就有讨论这颗芯片最终敲定了3nm工艺,这个推测在年底也得到相关部门确认。北京卫视晚间新闻2024年10月的一期节目提到,小米公司成功流片国内首款3nm工艺手机系统级芯片。玄戒O1的工艺传闻出现4nm、3nm两个版本,与多个方案并行有关,这也属于行业惯例。现在业界基本确认苹果A20会首发台积电2nm工艺,但其实苹果也开了3nm的案子作为备份,以避免在导入2nm工艺节点过程中出现不确定性,比如良率事故,进而影响整代产品的生产和销售。玄戒O1在3nm和4nm间摇摆,与苹果的逻辑还不完全一样,毕竟两个节点都已经非常成熟,核心还是品牌效应与成本之间的平衡。去年下半年,台积电就开始了一轮涨价,涨价之后4nm节点每片晶圆代工费在大概18000美元左右,3nm在22000美元左右,差价大概在4000美元左右,未来还有可能再涨价,传闻涨幅在10%左右。按现在的价格,假设小米下了10000片晶圆的订单,采用3nm节点,代工费预计是2.2亿美元,比4nm的方案多4000万美元,大概占小米官宣的135亿元研发投入的2%,但却能换来“中国首颗3nm手机处理器芯片”,品牌收益巨大。既然这么算,为什么小米不再多花一点费用,直接上2nm?这里最关键的是时间窗口,去年7月份玄戒就有回片结果了,这个时间点台积电2nm工艺才刚刚试产。其次则是技术的成熟度,今年3月底台积电2nm试产良率还停留在60%-70%之间,远低于目前3nm超80%的良率。追逐2nm,小米就得因为良率水平,承担30%-40%的废片损失。另外,由于客户关系的原因,就算小米想拿2nm,也不一定能如愿。现阶段,小米在台积电的客户营收贡献里面,还只能划到其它类别,争夺最先进的工艺,话语权一定不及苹果、联发科、高通这些老客户。这里面还有一个核心要素,有关设计技术协同优化,像苹果这种量级的Fabless,和台积电在新节点上有丰富的设计技术协同优化经验,能够帮助晶圆厂加速提升良率,也因为如此,台积电还会积极地替客户承担废片成本。2023年,The Information曾披露,台积电为了吸引苹果在A17上导入良率还只有70%-80%良率的3nm工艺,主动承担20%-30%的额外成本。总结一下,5nm相对过时不需要考虑,4nm缺少话题性,2nm产能“新人”又拿不到,3nm自然也就成为了玄戒O1最理想的选择。自研究竟要花多少钱?玄戒项目目前研发投入135亿元,今年还要投60亿元,4年接近200亿元。现在就要算算账了,这135亿元有多少钱投在了玄戒O1上,或者说,自研一颗3nm芯片究竟要花多少钱,怎么才能在自研和外购之间取得平衡?“假设要量产500万颗玄戒O1芯片,平摊下来单颗芯片预估成本大致为200美元,最终成本由出货量多少决定。”吴梓豪说。业内很多研究机构预估过3nm自研的费用,大致可以拆成研发+量产+外购+封装几个部分(不考虑人力、财务、行政等支出):研发费用集中在IP、EDA工具、仿真测试和掩膜上,主要体现为一次性投入,成本预计45亿元左右量产部分,3nm每片晶圆代工费22000美元(约16万元),500万颗芯片需10000片晶圆,预计16亿元,1000万颗即20000片晶圆,预计32亿元AP+BP独立,需要额外采购联发科BP芯片,单颗BP芯片预计400元,量产500万颗AP芯片,即需要外购500万颗BP芯片,总成本20亿元。量产1000万颗AP芯片,BP需求量为1000万颗,采购成本为40亿元按上述预估,500万颗芯片从研发到量产,总计需91亿元,单颗成本预估1820元左右,如果再把人力等费用加进来,实际要远高于1820元。作为对比,高通骁龙8 Gen 2采购价为160美元,骁龙8 Gen 3是200美元,约合人民币分别为1150元和1440元。玄戒O1的成本,只有比骁龙芯片更低的情况下,自研才不会亏损,而控制成本有两个路径:压缩研发投入、生产更多的芯片。压缩研发投入对自研“新人”玄戒来说,不一定能快速见效,但追加代工订单,是小米可控的变量,但这也意味着要卖出去更多的旗舰机。假设将芯片量产的数量从500万颗,增加至1000万颗,外购BP和测试封装的费用也要增加一倍,总成本137亿元,单颗芯片成本在1370元左右,这个时候自研、外购费用基本持平,这也意味着量产1000万颗是玄戒O1的盈亏平衡点,低于这个值,3nm自研可能就会亏损。需要注意,量产1000万颗O1芯片,就需要制造1000万台旗舰机,在当前市场环境下,对单一型号来说很有挑战性。3月份,有用户晒了一份数据,截止W9/3月2号的国产手机累积激活销量,小米15系列销量突破304万,位列国产第一。此前的2024年9月份,也有用户晒了小米14系列数据,接近一年时间累计销量超过700万台。小米15S Pro首发玄戒O1芯片,凭借“3nm最强中国芯”这个buff,再加上逐步覆盖更多产品线,即便最后量产数突破1000万颗,产能消化仍然乐观。对小米而言,以小米15S Pro的最低售价5499元来计算,这1000万颗芯片,除了给小米插上“中国芯”的翅膀外,也会带来近550亿元的营收。手机芯片、车芯,然后呢?小米造芯注定不会是阳关坦途。玄戒这个项目所需要的资源当中,钱其实相对容易解决,技术和知识产权层面将面临考验,最为迫切的是与高通、华为、联发科、ARM这些坐拥大量知识产权的公司达成“和平协议”。几天前的Computex上,高通CEO安蒙被问及“小米自研3nm”的看法,潜台词是小米推动玄戒自研芯片,以后不用你高通的产品怎么办?安蒙的回答很巧妙,他说小米的旗舰机仍然还会采用高通芯片,并且强调三星也自研手机芯片,但高通仍然是其芯片供应商,该模式同样适用于小米。话音刚落,5月20日,高通就官宣与小米新签署了一份许可协议。“这些授权费都在上亿人民币的量级,”韩利杰说,“ARM的授权也会搞定,但华为和小米只有手机相关的交叉协议,芯片部分暂未涉及,大概率会对小米发起诉讼。”对新生的玄戒来说,技术和知识产权关乎生存,如何应用关乎发展。发布会之前,小米总裁卢伟冰也像雷军一样化身劳模,加入到玄戒芯片的宣传之中,对外释放的信息包括,“玄戒芯片不止O1一款” 、“玄戒O1不仅用于手机,也会用于其他产品”等等,发布会上答案也揭晓了——面向智能手表且集成自研4G基带的玄戒T1芯片。那么,还有其他应用场景吗?最容易联想到的是小米汽车。过去几年,中国新造车都已下场造芯,蔚小理的5nm芯片都已经在台积电成功流片,核心应用场景聚焦“智驾”。何小鹏此前曾表示,下场自研可以让“成本更可控”,李斌也在公开场合透露,“蔚来神玑芯片可实现单车1万元降本。”和小鹏、蔚来的自研芯片不同,玄戒O1的109mm² Die Size和190亿晶体管,都是针对手机来规划的,如果“上车”,只能用于座舱场景。在这方面,高通在骁龙8155芯片做了非常成功的商业示范。2019年,高通发布骁龙8155,次年首发“上车”,2021年被新势力疯抢——这块芯片基于骁龙855的设计改进而来,包括降低CPU频率,提高GPU和NPU频率,增强针对导航、娱乐等视频图像的处理能力等等。雷军要将小米汽车打造成中国汽车工业崛起的力量,要推动“人车家”生态融合,显然不会止步于一颗座舱芯片。吴梓豪认为,现阶段研发车用芯片,甚至将其调整为重点项目都符合逻辑,他说:“这2500人的团队中一定有人在研发车用芯片,但一开始规划立项时不一定涉及到汽车,当时团队第一要务就是把手机芯片先搞出来,所有的事情都要一步步来。”第一步是手机芯片,第二步“上车”,第三步是什么?桌面、座舱、智驾和机器人,这些都是符合现实条件的设想,再跳脱一点,AI ASIC这种加速计算场景也不是不可能。截至目前为止,苹果基本完成了手机、PC、手表以及耳机等相关外设的核心芯片自研,包括A系列、M系列、S系列和C系列,用时接近15年。对照苹果这个参照系,除了手机SoC,小米不是也拿出了玄戒T1这种面向智能手表的芯片,甚至还包括自研4G基带。雷军曾说,小米造芯至少投资十年,关于这种长期主义的表态,应该在内部做过多次通气,以至于小米系的人,都保持着类似“十年磨一剑”的口径。《UVM实战作者》张强朋友圈截图,来源:芯片验证日记2023年,一位网友在社群中晒出《UVM实战作者》、芯片验证领域专家张强的朋友圈截图,除了替芯片团队的验证岗位招人外,张强也说,“小米已经做好了十年的规划,这种规划既包括技术上的规划、也包括财务上的规划。”10年才刚刚开始,玄戒O1和T1,只是小米自研芯片“重新开始”第一步。ima知识库穿透华为、DeepSeek、OpenAI、微软、谷歌等明星公司的算力储备,复盘英伟达、台积电、ASML等巨头们的成长史,分享芯片、算力的一切。推荐阅读:芯事重重系列黄仁勋摘掉美国芯片“紧箍咒”2025,中国芯片“第一战”打响中国芯片“投资教父”All in英特尔 ...

腾讯科技 Claude 4系列模型来了!编码能力强于o3和GPT-4.1,记忆性能大幅提升的相关微信公众号文章 – 搜狗微信搜索

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的 Pro和Claude 3.7 Sonnet.那么问题来了,OpenAI为何要发布一个... GPT-4.1家族的出世,以更强编码性能,百万token上下文,更具性... 扬奇智能社区

黄仁勋最新专访:50%的AI开发者都是中国人,《AI扩散规则》或反噬美国

5月20日消息,在中国台北Computex 2025电脑展上发表主题演讲后,英伟达首席执行官黄仁勋接受了科技博客Stratechery博主本·汤普森(Ben Thompson)的专访。在本次访谈中,黄仁勋探讨了英伟达近期与沙特和阿联酋签署的一系列AI合作协议、针对中国的H20芯片出口禁令,并坦率表达了对美国当前芯片出口管制政策的担忧,认为这一策略可能会在未来削弱美国,包括英伟达在内的技术领导地位。黄仁勋还阐述了自己对全球经济格局的看法,认为AI技术不仅有可能大幅推动全球GDP增长,还可能在一定程度上帮助美国缓解贸易逆差问题。访谈中,黄仁勋介绍了“英伟达全栈”解决方案的核心优势——通过软硬件深度集成,最大化AI效能。他解释称,模块化设计可为客户带来更高灵活性,客户可根据自身需求选配系统组件,而无需全部打包购买。同时,他还提到了Dynamo系统在提升推理性能方面的关键作用。英伟达通过全面布局,构建一个贯穿从芯片到软件、从训练到推理的AI基础设施平台。以下为黄仁勋最新专访全文:AI自身构成完整全新产业由AI工厂驱动问:在过去几次访谈中,我能感受到你非常希望世界能够理解GPU的潜力。那时候,ChatGPT还没有问世,而现在,整个市场仿佛都悬挂在你们的财报表现之上。我知道你们现在正处于财报静默期,我不会问财报相关的问题。但我想知道,被推到这样一个位置,成为全球技术关注的焦点。你是什么感受?黄仁勋: 老实说,这件事对我个人而言没有太多情绪上的触动,但有一点我始终非常清楚:在不断重塑英伟达的过程中,推动技术进步、引领行业发展,始终是我们工作的核心使命。我们立志走在最前沿,攻克最具挑战性的技术难题,为整个生态系统持续创造价值。今天的英伟达,已经不再仅仅是一家芯片设计公司,而是一家以数据中心为核心,提供全面计算平台的企业。我们不仅构建了一个覆盖训练与推理的全栈AI平台,还首次实现了软硬件架构的深度集成与模块化解耦,为生态系统的广泛参与提供了灵活性和可扩展性。在今年的Computex主题演讲中,我特别强调:我们现在所打造的,不只是“科技行业”所需的计算机系统,而是在为“人工智能”这一全新产业形态搭建基础设施。AI不仅是一场技术革命,更是一场劳动力革命——它明显增强了人类的工作能力,尤其在机器人等新兴领域中,这种增强将在未来展现得更加深刻。更重要的是,AI不只是一个技术突破,它本身就是一个庞大且全新的产业体系。而这个产业,将由我们称之为“AI工厂”的基础设施来驱动——其核心正是以超大规模算力为基石的数据中心。我们才刚刚开始意识到,时代的重心正在转移:未来,数据中心不再只是云计算的承载体,而将成为真正意义上的AI工厂,其规模和重要性,将远超我们今天的想象。问: 微软CEO萨蒂亚·纳德拉在最新的财报电话会议上提到,他们报告了一个 token 处理量的数据——我记得是上个季度的。这个是不是你最关注的财报细节?黄仁勋: 实际上,真实的 token 生成数量远远超过那个数字。微软公布的数据,只涵盖了他们为第三方客户生成的部分。而他们内部自用的 token 处理量,实际上比那还要大得多。此外,这个数字还不包括 OpenAI 所产生的 token 总量。所以,仅凭微软报告中的数字,你就可以想象整个生态系统中实际生成的 token 数量究竟有多么庞大。《AI 扩散规则》或反噬美国问:最近你们与沙特和阿联酋达成了一系列AI合作协议。从你的角度来看,这些合作为何重要?你为何亲自到场?这对你来说意味着什么?黄仁勋: 他们亲自邀请我出席,而且我们此行也是为了宣布两项相当庞大的 AI 基础设施建设计划:一项在沙特,另一项在阿布扎比。这两个国家的领导人都已经意识到,他们必须参与到这场AI革命中来,也认识到自己国家拥有独特的战略优势,即丰富的能源资源。不过,这些国家在劳动力方面存在短板。他们的国家发展长期受到劳动力与人口规模的限制。而AI的出现,为他们提供了历史性机遇:实现从“能源经济”向“数字劳动力”和“机器人劳动力”经济的转型。 我们在沙特参与创立了一家新公司,名为 “HUMAIN”,他们的目标是登上世界舞台,建设面向全球的AI工厂,吸引包括OpenAI在内的国际企业参与合作(OpenAI 的代表也出席了现场)。这是一个意义重大的项目。问:从某种程度上说,这似乎也意味着对《AI扩散规则》(AI Diffusion Rule)的一种挑战?我理解这项规则对这些国家尤其严格,比如规定了芯片出口数量限制、必须由美国公司控制、在某些方面必须依赖美国本土制造等。和以往相比,这次你们对该规则的反对声音更为坚定。你过去较少直接参与政府政策层面事务,而如今英伟达已成为全球科技核心企业之一。你能迅速适应这一角色转变吗?黄仁勋: 并不是我不愿意参与,而是过去确实没有这个必要。英伟达发展的大部分时间里,我们都专注于研发技术、建设公司、培育行业生态,并在竞争中不断前行。我们时刻都在构建供应链、搭建生态系统,这本身就已非常庞大复杂。但《AI 扩散规则》一出台,我们立刻表明了态度。如今大家也能看清楚——这项政策完全是错误的。它对美国来说是一项根本性的战略错误。如果《AI 扩散规则》的初衷是确保美国在...

Recent articles