科技

腾讯科技 打字即出图!混元图像2.0让AI生图进入“零延迟”时代的相关微信公众号文章 – 搜狗微信搜索

打字即出图!混元图像2.0让AI生图进入“零延迟”时代 中国商业科技新闻网特约作者|晓静编辑|萌萌5月16日,腾讯混元推出Hunyuan ... 这个模型的诞生,意味着图像生成进入了“毫秒级”时代——"所... 中国商业科技新闻网

奥特曼最新专访:2025,AI智能体正加速登场

5月13日消息,OpenAI联合创始人兼首席执行官山姆·奥特曼作为特邀嘉宾,于美国当地时间5月12日出席了全球知名投资机构红杉资本举办的“2025 AI Ascent”大会。在本次专访中,奥特曼分享了OpenAI的创业历程、产品规划与发展路径,并深入探讨了他对AI行业未来的洞察。奥特曼回顾了OpenAI从一个仅有14人的研究实验室,成长为全球领先的人工智能平台的历程。他设想将ChatGPT演进为一种高度个性化的AI服务——它能够记住用户的完整生活背景,从对话记录到电子邮件内容,同时能够在多个应用和服务之间无缝衔接、自然协作。他指出,年轻一代用户已经将人工智能视为操作系统,而不仅仅是搜索工具。这种趋势预示着一个全新的未来:一个高效、统一的大模型,能够在无需重新训练的前提下,基于超大规模的上下文进行推理,全面理解用户的历史信息,从根本上重塑人与技术的交互方式。在谈及AI智能体时,奥特曼给出了明确的发展时间表:2025年,智能体将开始大规模“上岗”,处理复杂任务,编程将成为其最具代表性的应用场景 ;2026年,智能体将具备自主发现新知识的能力,形成具有独立逻辑的决策框架;到2027年,智能体将正式进入物理世界,作为“数字劳动力”在制造、医疗等领域创造实质性的商业价值。  以下为奥特曼最新专访精华内容:OpenAI的“从0到1”:ChatGPT是如何诞生的?问:这是你们当年成立时的办公室(如下图)?奥特曼:没错,这正是我们最初的办公地点,2016年我们就在这里起步!问:黄仁勋(英伟达CEO)曾提到,他当年就是在这里交付了首台DGX-1超级计算机系统。奥特曼:确实。现在回想起来,那台机器真是小得令人惊讶。问:和现在的设备比起来呢?奥特曼:现在机箱依然非常庞大,不过当年那台大概有70磅重(约合32公斤),虽然沉但还能单人搬运。问:2016年的你可曾预见OpenAI会有现在的光景吗?奥特曼:完全没想过。那时我们14个人挤在角落里,围着白板讨论我们到底应该做什么。说实在的,那时我们就是个纯粹的研究实验室,虽然有着非常强烈的信念和方向感,但没有明确的行动计划。别说商业化产品了,连“大语言模型”(LLM)的概念都还很遥远。问:当时还在尝试用AI打游戏?奥特曼:是的,而现在我们可是这方面的专家了!问:从公司初创到ChatGPT问世,历经六年时间,你们是如何设定里程碑的?奥特曼:其实我们的第一个面向消费者的产品并不是ChatGPT,而是DALL·E(文本生成图像系统),更早的则是API接口服务。我们曾尝试过多个方向,包括游戏AI、机械臂控制等。后来有团队专注于无监督学习,这才诞生了GPT-1和GPT-2。但直到GPT-3,我们才感觉手头真的有了点“东西”,虽然当时还不清楚该用它来做什么。与此同时,我们也意识到,如果想继续扩展模型规模,就必须筹集更多资金。像GPT-4这样的模型,其开发成本达十亿美元级,已不是靠科研资助能支撑的,除非是像粒子加速器那样的国家级项目。因此,我们开始认真思考,如何将这一研究转化为可持续的商业模式。我们隐约意识到,这项技术终将变得非常实用。虽然我们开源发布了GPT-2的模型权重,但市场反应平平。然而,通过观察许多创业公司,我发现一个模式:开放API接口往往能带来意想不到的价值,这在很多YC孵化项目中被多次验证。另一个关键体会是:技术越易用,其价值通常越大。当时运行这些大模型仍然非常困难,因此我们决定构建专用软件以优化部署体验。由于尚未明确产品形态,我们选择在2020年6月开放GPT-3的API接口,想看看开发者们是否能基于它打造出有价值的应用。有趣的是,虽然全球市场反应较为冷淡,但硅谷创业圈敏锐地意识到这项技术的潜力,有人甚至认为它是通用人工智能(AGI)的雏形。就我所知,真正基于GPT-3 API构建起可持续商业模式的公司并不多,主要集中在文案生成服务上,这是当时唯一能够突破商业化门槛的应用场景。但我们注意到一个异常现象:尽管人机对话功能尚不成熟,用户却乐此不疲地与模型互动。要知道那时的聊天体验并不理想,因为还没有引入基于人类反馈的强化学习(RLHF),但大家依然爱不释手。除了文案生成,人机对话几乎是唯一具备“杀手级应用”潜力的功能,这最终促使我们决定开发ChatGPT。在ChatGPT 3.5发布时,API已支持八大类商业应用场景,远远超出早期的单一功能。我们也愈发坚信——人们渴望与AI对话。虽然DALL·E的表现也不错,但考虑到我们在微调技术方面的积累,我们最终决定投入资源,专门打造一款面向对话的AI产品。经过六年的打磨与探索,ChatGPT终于在2022年11月30日正式上线。如今,每周有超过5亿用户与之互动。从精简团队到高效协作,OpenAI是如何做到“越大越快”的?问:最近半年,你们似乎在持续不断地发布新产品?奥特曼:是的,确实如此。我们发布了很多重量级更新,而且产品发布节奏越来越快,连我们自己也觉得非常惊人。问:你是如何在一家如此规模庞大的公司中,仍然保持快速的产品迭代能力?奥特曼:我认为,很多公司都会陷入一个典型误区:随着公司规模的扩大,产出却陷入停滞。他们只是为了扩张而扩张,却没有同步提升产品的研发与迭代效率,这就是所谓的“效率停滞”。我始终坚持几个基本原则:让每个人都高效运转;保持团队小而精;确保人均产出与公司规模相匹配。否则,你就会看到一个40人的会议,为了一个小功能而争论不休。商业界有句老话:“优秀的管理者永远很忙”,因为没有人希望看到闲着的人到处搅局、影响效率。在我们公司,也像许多科技公司一样,真正创造价值的是研究员、工程师和产品经理。你必须确保这些关键岗位上的人始终专注、高效地推进工作,产生实际影响。如果你打算扩张公司规模,那就意味着必须同时增加项目数量,否则就只会增加无谓的会议和内耗。因此,我们尽量保持精简的团队结构,但赋予每个人极大的责任感。要实现这一点,唯一的方式就是同时推进大量项目。现在,我们确实有机会打造下一代互联网的核心平台。要实现“终身个性化AI助手”的愿景,意味着必须跨越不同的服务场景,覆盖主流与长尾应用,而这需要构建丰富的功能模块和配套能力。问:在过去这六个月里,有没有哪个产品让你特别自豪?奥特曼:我最自豪的是模型能力的持续跃升。当然,我们距离目标还有不少改进空间,但我们正在以非常快的速度迭代。目前的ChatGPT已经是一款非常优秀的产品,而它之所以如此强大,核心就在于底层模型的出色表现。一个模型能够高质量地完成如此多样的任务,这一点让我感到由衷惊叹。如何不被OpenAI“碾压”?奥特曼:核心AI服务之外,机会无限问:你们既在开发小模型,也在推进大模型,几乎什么都在做。那么我们这些从业者该怎么做,才能不被OpenAI“碾压”?奥特曼:你可以这样理解我们在做的事情:我们希望成为用户的核心AI订阅服务提供商。这其中一部分功能将通过ChatGPT实现,其他还会涵盖一些关键模块。但最核心的,还是打造更智能的模型,探索新的交互入口,比如专属硬件终端设备,甚至类似操作系统的基础平台。至于API或SDK 的形态,我们现在还没有完全想清楚,但一定会找到合理的路径。可能会经历几轮尝试,但最终我们会做成。我希望我们的平台能为全世界创造巨大的价值,成为其他开发者创新的基础。问:也就是说,你们做“AI核心订阅服务”,其他部分我们这些开发者可以自由发挥?奥特曼:确实是这个思路。如果你能做出比我们还要优秀的核心AI订阅服务,那也非常欢迎。问:OpenAI未来的发展目标是什么?奥特曼:我们就是继续打造更强大的模型,推出用户喜欢的产品。除此之外,没有什么复杂的“终极蓝图”。我们更关注眼下要做什么。现场有很多OpenAI的老同事可以作证,我们不是那种喜欢坐下来制定繁复计划的团队。我始终相信——如果你从一个“宏大终点”向回推规划,很容易走偏。与其设计一个自上而下的总体战略,不如一步步往前走,靠用户反馈和现实成果驱动决策。我们知道接下来会需要庞大的AI基础设施,要建“AI工厂”。与此同时,我们会不断提升模型性能,打磨优秀的终端产品,从模型到接口再到硬件,每一部分都要做到最好。我们以灵活应变为荣。随着外部世界不断变化,我们也会及时调整战术。目前我们还没开始规划明年要发布的产品,但我们有信心打造出真正打动用户的创新。我对我们目前的研究路线充满信心,从未像现在这样乐观。问:接下来的研究路线图是怎样的?奥特曼:更智能化的模型,这是我们的中心目标。但每一步如何走,我们会边走边看,通常是走一步看两步。问:所以你更相信“从现在出发,逐步演进”,而不是“自上而下反向规划”?奥特曼:完全正确。我听过很多人讲他们有一个宏大的战略蓝图:比如“最终要统治世界”,然后再往回推算每一步该做什么……但我从来没见过,这样的路径能真正带来巨大成功。年长者用AI查信息,年轻人用AI过人生问:你认为大公司在转型为AI原生组织时,常犯哪些错误?无论是在使用 AI 工具还是构建 AI 产品方面?为什么初创公司明显在创新上更具优势?奥特曼:几乎每一次技术革命都会出现类似现象,所以这并不令人惊讶。他们犯的错误与以往如出一辙:过度依赖传统流程,固守旧有思维。当技术每隔一两个季度就发生飞跃,而你还在依赖一年才开一次会的信息安全委员会来决定是否引入新应用、如何处理数据,那么这种转型注定将异常艰难。这正是“创造性颠覆”的核心,也是初创企业往往能胜出的根本原因。行业就是在这种颠覆中不断前进的。我对大公司的转型速度感到失望,但并不意外。我的判断是,未来一到两年里,它们仍会经历挣扎期——试图假装AI不会颠覆一切,等真正危机降临时才匆忙转型,但往往已经为时过晚。届时,初创公司早已利用灵活机制和新范式完成“弯道超车”。而这种落差不仅体现在组织层面,也反映在人身上。比如,你可以观察一下一个20岁的年轻人与35岁用户在使用 ChatGPT 时的差异,简直天壤之别。这就像智能手机刚问世时,孩子们能迅速上手,而年长者可能要花三年时间才能掌握基本功能。今天的AI工具,也在重演类似的“代际断层”,而企业的行为,往往只是个体趋势的放大。问:你观察到年轻人在使用 ChatGPT 上有哪些独特的创新方式?奥特曼:他们真的已经把 ChatGPT 当作一个操作系统来使用了。他们会结合文件、工具链与提示词,设定复杂的操作流程,甚至精心设计提示词并记在脑子或文档里,就像使用一门语言一样。让我印象最深的是,如今很多年轻人在做人生重大决策之前,都会先来问 ChatGPT 的意见。因为它已经拥有他们完整的背景信息、过往的对话记录与行为偏好,具备了“记忆”能力,这使人们与它的互动方式发生了根本变化。简单来说:年长用户把 ChatGPT 当作谷歌的替代品,20–30 岁的用户视其为“人生顾问”,而大学生则已经把它当作操作系统来用了。问:OpenAI内部是如何使用 ChatGPT 的?...

大模型之路,阶跃星辰选择了一条“无人区”

中国商业科技新闻网特约作者|晓静编辑|萌萌2025年,全球AI大模型的发展路径呈现出显著的差异化趋势。全球范围内,OpenAI专注“超级模型+万能平台”;Gemini强化安卓生态,端云协同与多模态领先;Anthropic主攻安全可信AI和Agent能力;xAI依托社交数据优化Grok;Meta坚持开源但进展放缓。国内竞争同样激烈:有资金有入口又有场景的科技大厂,继续在基础模型能力上投入,并开始将AI模型的能力和自身业务场景融合。明星创业公司中,DeepSeek追求高性价比;智谱AI布局全矩阵;Kimi试水社交;百川专精医疗;零一万物双轨并行;Minimax海外产品Talkie月活破千万。而成立刚刚满两周年的阶跃星辰,选择模态全覆盖路径并坚持原生多模态理念,创始人姜大昕曾多次强调,“多模态是通往AGI的必经之路。”在这两年内,阶跃星辰发布了22款自研基座模型,其中16款为多模态模型。最新开源的Step1X-Edit图像编辑模型,性能达到了同类开源模型的SOTA。因此,阶跃星辰也被业内称为“多模态卷王”。对此,姜大昕回应:“我是认可‘多模态卷王’这个称号的。”自创立之初,姜大昕团队曾绘制过一幅智能进化路线图。智能的进化将分为模拟世界、探索世界、归纳世界三个阶段。姜大昕判断,当下AI模型的技术发展正处于从模仿学习向强化学习的转变阶段,通过强化学习培养机器解决复杂问题的能力,使其具备"系统二"的慢思考能力。系统一和系统二是由诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)在其著作《思考,快与慢》中提出的概念,用于描述人类思维的两种不同运作模式。系统一是直觉性思考,而系统二是需要有意识集中注意力的慢思考过程。大模型的推理过程就类似于系统二。在这个阶段,多模态模型的能力将起到决定性的作用,AGI的目标是模拟人类智能,而人类智能本身就涵盖语言、视觉、空间、运动等多种形式,AI具备听、看、说的综合能力,才能更好地理解用户环境并实现自然交互。但是,姜大昕也指出,“从发展阶段来看,多模态模型目前可能甚至还没看到'Transformer'级别的突破性框架诞生,甚至比GPT-1还早。”智能终端和Agent是阶跃星辰在上图“探索世界”阶段最看重的应用场景和应用形态,“但是只有出现了多模态理解生成一体化模型,特别是可扩展的一体化,才能实现人形机器人的泛化能力,才能扩展Agent的能力。”那么,全球目前是否已经有模型能够实现多模态理解生成一体化了?姜大昕判断:“最新的GPT-4o,有可能是理解生成一体化多模态模型,但是不确定它是否能够Scalable(可扩展)。以Sora为代表的当前一代视频生成技术已经接近上限,下一代突破应该基于理解生成一体化。”可扩展的多模态理解生成一体化模型的诞生之日,将是多模态模型的ChatGPT时刻,而目前,这个领域还是技术的无人区。在探索技术无人区的同时,每家AI创业公司也面临着商业模式和营收的现实问题。关于阶跃星辰的未来发展路径,姜大昕用三句话进行了概括:坚持基础大模型的研发;发挥多模态领域的差异化优势,积极探索前沿方向;在应用层面通过智能终端Agent构建独特生态。这三句话背后,隐藏着技术攻坚、商业生态构建等诸多挑战。在小范围沟通会上,姜大昕也与中国商业科技新闻网深度探讨了这些问题,重要观点包括:1)技术发展判断:从多模态模型的技术发展来看,以Sora为代表的当前一代视频生成技术已经接近上限,下一代突破应该基于理解生成一体化。2)商业模式选择:“超级模型+超级应用”的双轮驱动,模型能力决定应用上限,而应用则为模型提供具体场景和数据。3)AI时代的增长路径:投流的逻辑在AI时代不一定适用,AI时代产品的流量增长模式可能不同于传统互联网。不仅是DeepSeek,像哪吒2、黑神话悟空、Manus等产品也都不是靠铺天盖地的投流获取用户的。以下为对话内容精选:为何多模态理解生成一体化模型如此重要?提问:理解生成一体化的路线是公司成立之初就设定好的吗?在这个相对较难的前沿方向上坚持,会对商业化有什么影响?姜大昕: 成立之初就设定好了这一路线。我认为模型突破是早于商业化的,就像先有GPT-3,才会有ChatGPT;先有多模态融合和推理模型,才会有成熟的Agent。同样,需要先有多模态理解生成一体化,特别是可扩展的一体化,才能实现人形机器人的泛化能力。一体化技术突破后,它的意义不仅在于改进现有Agent,还会在具身智能泛化和世界模型构建方面带来全新应用。对端侧来说,理解生成一体化确实能带来更好的理解和生成能力,有助于Agent发展,但其意义远不止于此。从技术路径发展阶段看,理解生成一体化相当于语言模型发展中的Transformer阶段,甚至比GPT-1还早。Transformer是2017年出现的,而GPT-1是2018年出现的,所以这是一个架构级的基础突破。提问:阶跃的技术路线是什么?是希望自己创造多模态模型的"Transformer时刻"还是等待别人突破后跟进?姜大昕: 我们内部有多条技术路线并行探索,因为确实不知道哪条路会成功。不谦虚地说,阶跃的技术人才储备很雄厚,各团队在基于自己的判断尝试。我们当然希望自己做出突破,但真正成功的才有意义。历史上,Transformer出现之前自然语言处理也有多条技术路线,包括RNN、LSTM等。直到Transformer出现后大家才认可"就是它了"。现在的多路线探索就像当年在寻找更高效的架构,最终会有一个让大家都认可的解决方案。很有趣的是,2017年Transformer出现后,真正一统天下的不是OpenAI的GPT,而是Google的BERT。当时在自然语言处理领域,BERT完全吊打GPT。GPT比BERT早出来几个月,但是没有受到同等重视。Ilya Sutskever有种执念,坚信没有生成就谈不上理解。当时从实际效果看,BERT确实更好。甚至GPT-3出来时我们也只认为它有研究价值,因为又大又笨,似乎什么都能做但是什么都做不好,直到ChatGPT出现才改变看法。语言模型已经经历过这段历程,视觉领域可能会吸取经验。一旦视觉的"Transformer"出现,后面的发展路径会变得顺理成章,大家只需沿着语言模型已探索的路径前进即可。理解生成一体化模型实现的标志是什么?提问:GPT-4o新版本是否已实现理解和生成一体化?姜大昕:我们猜测GPT-4o可能已将理解和生成放在同一个模型中,但不确定这种方法是否能实现泛化(scalable)。我们追求的理解生成一体化应该像Transformer那样能够扩展,能够处理海量视频数据进行预训练。判断一个模型是否实现了可扩展的理解生成一体化,关键是看它能否预测下一帧(predict next frame)。去年Sora发布时,很多人非常兴奋,但我们其实相当失望,因为我们期待的是理解生成一体化的突破,而不仅仅是一个扩散模型生成视频。不过回头看也有道理,从多模态融合直接跨越到理解生成一体化可能太难了,所以现在是理解和生成两条路线独立发展,互相促进。OpenAI在Sora论文中提到用视觉模型给数据打标,这正是生成帮助理解的例子。总体方向肯定是要解决"predict next frame"问题,否则后续发展会受限。提问:如果某个模型能够预测下一帧(predict next frame),具体表现会是什么样子?有什么可验证的标志?姜大昕:我认为首先它应该能够在给定一个电影开头后持续往下编排,产生有逻辑、符合物理规律的连贯内容。这是可以验证的能力,表明它的预训练做得很好,生成内容既高质量又保持一致性。回顾语言模型发展历程,GPT-1只能做单独的任务如情感分析、命名实体识别等;GPT-2尝试将所有任务转换为生成任务但效果很差;GPT-3才能像小学生一样写出连贯的段落。类比到视觉领域,如果一个模型能够生成10分钟合情合理的视频内容,我认为就达到了这个阶段。提问:多模态的"GPT-4时刻"需要理解生成一体化且能够scalable(扩展),这个时刻何时会到来?姜大昕: 现在这个行业发展速度很难预测。有时技术突破就是一瞬间的事情。就像推理模型的突破,大家一直知道基于模仿学习的大语言模型解数学题存在局限,但具体如何改进并不清楚,直到o1 发布才恍然大悟:原来思维链可以这样实现。如何看待全球多模态领域的竞争格局?提问:能否帮我们定位一下多模态模型的竞争格局?阶跃目前处于什么位置?实现理解生成多模态一体化模型的主要壁垒是什么?是架构算法还是高质量数据标注?姜大昕: 在国外多模态领域,OpenAI和Google实力很强。Anthropic主要关注点在Agent。X.AI可能有很强的隐藏实力,他们既不缺人才也不缺资金和场景,可能在等待时机爆发。Meta的Llama系列最近看起来进展较慢。国内则分为两类:一类是像阶跃这样的综合型公司,覆盖所有模态,同时做理解和生成,强调技术底层性并探索下一代架构;另一类则专注于AIGC领域,例如专注于视频生成或专注音乐生成的公司。阶跃的不同之处在于我们不仅专注单一模态或内容生成,而是试图在基础模型上推动代际突破。关于理解生成一体化模型的壁垒,算法和数据、人才都很重要。多模态模型面临高维连续空间的建模难题。例如,自回归架构(Auto- Regressive)无法直接处理复杂连续空间,迫使业界普遍采用扩散模型(Diffusion)。扩散模型的本质是通过分步迭代生成结果("一步做不到就分多步完成"),但如何将自回归与扩散模型深度融合仍存在根本性矛盾——可能需要颠覆性架构创新,例如将连续空间离散化为token,或发明全新范式。这种突破既需要算法层面的深度思考,也存在方向性试错风险,甚至可能彻底推翻现有技术路线。即使架构突破后,数据质量与规模仍是决定性因素。就像燃油车需要汽油才能行驶,再先进的架构若缺乏适配的多模态训练数据(如精准对齐的图文/视频/3D数据),也无法发挥真正价值。这需要顶尖人才团队在数据工程、标注体系、训练策略等环节持续攻坚。提问:阶跃每月都有新模型发布,是否会影响在单个模型上的技术深度?为什么不集中力量攻克理解生成一体化而是分散在多个模态上?姜大昕: 首先,我认同"多模太卷王"这个说法。但需要澄清的是,虽然在外界看来我们每月发布一个新模型,实际上这些模型是在不同技术路线上的。我们的多模态布局非常完整,包括语音、图像、视频、音乐等多个方向。每条技术路线都经过几个月甚至半年的积累才发布一个模型,只是当你同时看这么多方向时,会觉得我们频繁发布新成果。关于为什么不集中力量攻克理解生成一体化,这是个很好的问题。我们也希望这样做,但理解生成一体化是一个非常综合的挑战。首先,没有强大的语言模型就谈不上理解,而语言模型现在已经进化到推理模型阶段;其次,要做视觉推理需要先有视觉理解能力;最后,理解生成一体化还需要生成能力。因此,不是我们不够聚焦,而是完成这项任务本身就需要多方面能力的支撑。这也是阶跃的优势——我们在所有这些方向上都有很强的能力,才能将它们组合起来探索前沿方向。在技术无人区探索中的商业化选择提问:阶跃提出"超级模型+超级应用"的双轮驱动策略。现在很多大厂也在同时发力应用开发和模型研发,而许多初创公司已放弃预训练大模型。在这种情况下,您认为阶跃在通用大模型方向的核心壁垒是什么?技术、场景还是生态?姜大昕:我分几个层次回答。首先,为什么我们坚持大模型研发?因为现在这个行业仍处于技术高速发展的阶段。AI行业变化之快令人感慨。回想去年,GPT-4被视为无比强大的模型,让人觉得国内几乎无人能及;Sora刚出来时给大家带来巨大震撼,而现在已经变得不那么神奇了。也许明年再回看今天的技术突破,比如GPT-4o图像编辑能力,也会变得不那么令人惊讶。阶跃不愿在这个技术高速发展的过程中失去主导地位。从应用角度看,我们一直认为应用与模型是相辅相成的。模型能力决定应用上限,而应用则为模型提供具体场景和数据。因此,虽然我们的产品形态会随着模型演变而动态发展,但这种逻辑关系始终保持不变。提问:能否谈谈今年AI应用领域的重要变化,行业的焦点是否已经从聊天机器人到Agent转变?姜大昕: 大模型早期探索阶段主要是因为基础大模型已经具备了初步的能力和聊天能力,所以产生了一些简单应用。到了今年,由于模型的多模态能力和推理能力的进一步成熟,智能体(Agent)概念开始成为焦点。我们看到非常多新应用出现,比如深度搜索产品的出现,Google、OpenAI和国内公司都在做"深度研究"类应用,还有像manus或flowith这样的通用智能体。阶跃的产品策略也随之调整,我们将更聚焦于Agent领域。提问:很多 AI公司都在通过互联网时代的投流方式来做增长。您怎么看?姜大昕: DeepSeek给我们的一个重要启示是,投流的逻辑在AI时代可能并不完全成立。DeepSeek从未大规模投放流量,但如果放开流量限制,用户规模破亿不成问题。我认为我们需要重新思考AI时代产品的流量增长模式,它可能不同于传统互联网的玩法。不仅是DeepSeek,像哪吒2、黑神话悟空、Manus等产品也都不是靠铺天盖地的投流获取用户的。这是在悄然变化的。提问:阶跃选择做云端平台构建智能终端Agent生态,为什么选择成为供应商角色而非直接toC,比如开发类似Manus那样的产品?姜大昕: 因为智能终端Agent是个全新领域,我们更好的策略是先与已有大量用户和场景的头部企业合作,通过实际应用,探索模型如何更好地发挥作用。如果一开始就做ToC产品,第一步就需要获取用户增长,这很困难。与合作伙伴一起探索清楚后,我们未来自己独立开发产品也是可能的。另外,未来还有一个很诱人的场景,目前所有终端设备都是孤立的,就是打通所有设备,跨设备进行交互。提问:您与OPPO合作的"一键问屏"功能目前已能实现图片理解,未来是否会有更多类似Computer Use或Phone Use这样的Agent功能,与手机系统深度结合,调用更多权限完成操作?姜大昕: 确实是。从技术能力上这些已经完全可以实现,只是将其产品化量产还需要一定时间。实现过程中确实会面临API权限打通、应用数据之间的壁垒等挑战。这正是为什么技术虽已成熟,但产品成熟仍需时间的原因。这是一个综合性问题,涉及手机厂商关系、生态建设等多个方面,需要时间来探索合适的互动方式。提问:阶跃在智能座舱领域的能力边界定位是什么?现在有些创业公司专做Agent,将大模型视为能力供应方,直接与车厂合作。阶跃在这方面的思考是什么?姜大昕: 我认为纯应用公司始终面临一个风险:当通用模型能力进入下一阶段时,它们可能被降维打击。因此,我们没有将整个公司围绕某一个应用构建,而是继续专注于技术和模型能力的提升。但我们非常重视应用,因为通用模型的许多能力需要通过应用来牵引。例如,在测试智能玩具时,合作方提出一个挑战:如何判断小孩说话停顿时是在思考下一个词,还是已经说完了?这种在通用场景中不常见的问题,如果能在模型层面解决,将提升模型整体能力。因此,我们认为在不同场景中寻找这类挑战并将其反馈给模型,能促进模型能力的增长。推荐阅读:《AI未来指北》系列对话尤瓦尔·赫拉利:人类对秩序的渴求先于真相,是互联网和AI控制个人的首要原因智谱AI...

AI编程模型领域迎新王?谷歌发布Gemini 2.5 Pro I/O,单条文本提示即可生成完整应用

5月7日消息,美国当地时间周二,谷歌DeepMind人工智能研究团队发布了Gemini 2.5 Pro “I/O” ,这是今年3月发布的多模态大语言模型Gemini 2.5 Pro的升级版本。DeepMind CEO德米斯·哈萨比斯表示,这是“我们有史以来构建的最强编程模型!”从谷歌公布的初步基准测试结果来看,哈萨比斯并非夸大其词。自从2022年底ChatGPT引爆生成式AI热潮以来,谷歌首次在关键的代码生成评估指标上全面领先,超越所有竞争对手。最强编程模型上线新版本的模型编号为 “Gemini-2.5-pro-preview-05-06”,取代了此前的03-25版本。目前,该模型已向Google AI Studio的独立开发者、Vertex AI云平台的企业用户以及Gemini应用的普通用户开放。谷歌在博客中指出,该模型还为Gemini移动应用中的Canvas等功能提供支持。Gemini 2.5 Pro I/O已广泛用于诸如Gemini 95等开发场景。例如,模型能够自动匹配用户界面组件的视觉风格。此外,它还支持一系列高效开发工作流,包括将YouTube视频快速转换为互动学习应用,或创建响应式视频播放器、带动画的语音转写界面等复杂组件,几乎无需手动编写CSS。作为一款专有模型,企业用户需通过谷歌的云服务平台付费使用。不过,谷歌并未调整定价或速率限制:目前使用Gemini 2.5 Pro的用户将自动切换至新模型,价格仍为每百万输入token收费1.25美元,每百万输出token收费10美元,最多支持20万token的上下文窗口。相比之下,Anthropic的Claude 3.7 Sonnet定价为每百万输入token收费3美元,每百万输出token收费15美元。Gemini API与Google AI Studio的高级产品经理洛根·基尔帕特里克(Logan Kilpatrick)在开发者博客中确认,此次更新重点提升了函数调用的准确率与触发可靠性,有效解决了此前开发者普遍反馈的问题。单条文本提示即可生成完整应用谷歌此次更新的一大亮点在于,只需通过一条提示即可构建完整、可交互的网页应用或模拟程序,这正契合了DeepMind希望简化原型设计与开发流程的愿景。谷歌表示,用户可以输入视觉模式或主题性提示,直接转化为可运行的代码,这显著降低了设计导向型开发者或创新团队的入门门槛。虽然谷歌尚未公开新版Gemini...

对话能量奇点创始人杨钊:人类驯服可控核聚变还有多少路程?

文/腾讯新闻科技主笔 张小珺编辑/马龙人类驯服可控核聚变还有多少路程?2021年,Sam Altman以个人名义向美国核聚变初创公司Helion Energy注资3.75亿美金,这是他迄今最大一笔个人下注。Helion豪言称,将在2028年前建成全球首座50兆瓦聚变电厂。马斯克持不同看法。他曾说:“我们的头顶一直就有一个取之不尽、用之不竭的核聚变反应堆——太阳”。他相信太阳能才是人类能源问题的根本路径。不过,在很多人眼中,可控核聚变仍然是“能源界的圣杯”。随着今天我们向AGI迈进,能源将是文明演进的最大瓶颈——毕竟,AGI或许不惧怕人类,但一定害怕断电。2025年4月,我访谈了中国可控核聚变创业公司、能量奇点创始人兼CEO杨钊。相比AI,可控核聚变是一条更漫长、更人迹罕至的创业之路。它几乎是面对人类有史以来最复杂的物理难题之一,站在科技与人类文明的边界上,做技术摸索。作为中国可控核聚变事业的参与者,他也相对清晰地计算出了,人类驯服可控核聚变还需要多少资金要消耗?还有多少路程要走?我们也探讨了,在更远处的未来,当能源成为无限,我们的世界、我们的文明又将怎样?“托卡马克核心想法是,磁场长得像一个甜甜圈”张小珺:我们先从一些比较高频出现且很重要的词汇开始聊起,给大家做一个重点的科普扫盲。什么是核裂变,什么是核聚变,区别是什么?杨钊:他们都属于核能。核能基本想法是通过核反应,使反应产物的总质量小于反应的原料总质量,这样,质量差距最终带来的,根据爱因斯坦能量方程,变成能量释放出来。只不过裂变和聚变区别在于:裂变使用的是较重原子核,通过原子核分裂成几个较轻原子核,这个反应过程使最终产物的反应总质量低于原来较重的原子核的过程。裂变使用的原料放射性比较强,且原子序数比较大的元素;而聚变相反,使用单个质量较轻的原子核,一般两个左右,让它们相互碰撞,融合成一个质量较重的原子核,但最终反应产物总质量比反应前的几个原子核总质量加起来要小。这个过程也是把质量变成能量的过程。裂变是原子弹原理,而聚变对应的是氢弹原理。张小珺:接下来解释两个词,一个是“托卡马克”,一个是“高温超导托卡马克”。杨钊:托卡马克是属于实现可控核聚变技术路线中的一种。实现可控核聚变大体分三个路线:大家最常见的一个可控核聚变,是太阳、恒星,恒星靠重力将大量原子聚集,使密度足够高,最终产生了聚变反应,它不停在释放能量。地球上没办法产生这么大重力,这条路线肯定走不通。人类使用了两种方法:一个叫磁约束,一个叫惯性约束。在这个分支内,托卡马克是属于磁约束的这么一个大的范畴。磁约束的核心想法是通过产生一个特定位形磁场,将反应温度非常高的等离子体约束在磁场中,不要让它跟其他固体设备产生直接接触。但是磁场到底长成什么样,这是在磁约束下面的不同分支的区别了。现在研究最为广泛,从拿到的实验结果上来说,参数最高,并且已经达到可以作为接近能量盈亏平衡的技术路线,是托卡马克。最开始苏联提出来的一套技术路线。托卡马克核心想法是,磁场长得像一个甜甜圈,这个甜甜圈因为是一个圆环,封闭的,所以用这样的磁场位形去将高温等离子体约束在甜甜圈内。我们通过提高等离子体温度,并且有磁场不断去约束这个等离子体,让整个高温等离子体,在我设计的甜甜圈范围内发生这种碰撞,产生聚变,释放能量。当然了,它除了有一个环向甜甜圈方向的磁场之外,还有一个环向电流,这是非常关键的组成部分。具备有这种环向磁场,且有环向电流的二维轴对称的磁场位形,我们把它命名为“托卡马克”。张小珺:高温超导托卡马克?杨钊:刚刚说了托卡马克需要很强磁场,这个磁场用来约束等离子体,怎么去产生这样一个磁场,做法就是我们通过造一个磁体,这个磁体里通过很大电流,产生磁场。用来做磁体的材料是什么样子,这就又出现了几代托卡马克了。磁体是对于托卡马克或者对于磁约束来说,最关键的一个系统部件,它的核心材料变化会影响到整个装置其他所有子系统的设计和它的对接。托卡马克大概经历了三个阶段:最早,大家只是为了做一个实验看看性能,绝大部分早期托卡马克都是用铜做的磁体。铜作为一个常规导体,它会在运行过程中,因为你通了很大电流,会发热。所以当参数比较高的时候,大家发现用铜导体做的托卡马克并不能很长时间运行,大概秒级、十几秒级量级,就必须得关掉,否则铜自身发热就会造成磁体本身甚至会被熔化掉。所以它只能是短时间脉冲做一个短脉冲实验。因为铜这个东西是可以在室温下,当然也可以降温做,但它大部分是水冷的降温方式,所以铜导体的装置,工程复杂度相对较低,并不需要营造出一个真空且很低温环境才能运行相比于超导装置。这也是为什么早期我们为了去探索等离子体性能,在工程上先用最简单方法,就是先用铜去做这样的装置,短时间拿到实验结果。等到后面,参数越来越高,且我们要考虑未来真正做聚变商业化,你不可能用铜再去做装置,否则它的运行时间不够,而且铜自身消耗的能量比你发出的能量还要大。所以人们开始思考,我用超导材料去做磁体。这个也经历过一部分磁体用超导材料,一部分磁体用铜,但第一个集大成者的是我们合肥EAST装置。它是第一个全低温超导的一台托卡马克。意思就是,所有磁体线圈都是用低温超导这种材料去做的完整的托卡马克。为了做一台超导托卡马克,你就需要去营造一个高真空环境,让磁体在这个真空中去运行,否则,光空间的漏热、热对流、热传导已经没办法产生磁体能运行在零下269度极低温的环境。同时,你为了防止热辐射,会造冷屏,就是低温的用来减少热辐射包裹在磁体外部的环境。所以,一台低温超导托卡马克,工程复杂性很高。这也是为什么在大概2000年之后才建成一台装置,像EAST是2002年开建,大概2006、2007年建成的。后面,韩国还有一台装置叫KSTAR,是一台低温超导的装置;再往后像日本最近建成了一台新的,很高参数的装置叫JT-60SA,也是一台低温超导的装置。全世界全低温超导的装置就这三台。低温超导虽然可以在很低的温度下长时间运行。比如说我们可以看到有一些1000秒这样的运行记录。但它的一个大问题在于,如果我用这条技术路线做一台可以商业化发电的装置,一个核心参数就是我需要有足够多输出能量,输出能量要远高于消耗的能量,这是发电装置。大概尺寸就是现在正建设的法国这台装置ITER,这台装置由欧盟牵头,中国、美国等加起来6个国家一起参与的,已经投入资金250亿欧元的一台装置。张小珺:这个项目历时很长。杨钊:它的设计是在90年代完成的,真正开建是2006年,现在最新消息已经延期到2034年——大概建设周期就是30年的装置——因为它非常大。这就说到低温超导的弊端。用这种材料去做的一台托卡马克,由于这种低温超导材料的磁场有限制,不能太高,否则就会变成像铜一样的东西,就有电阻,不能长时间运行。就使得这个装置必须做得非常大,才能做到足够大能量增益,结果是它的建造周期会特别长,成本会极高,甚至这个东西做出来,度电成本可能是火电的100倍以上。它是一个科学研究装置。如果你的目标是比火电成本低,甚至未来远低,这条技术路线难度挑战是非常大的,怎么把成本从100倍,两个数量级以上降下来。所以在2018年之后有这么一个新想法。我们用一种新的超导材料,这也是在2015年之后,2018年左右才在工程上、工业上实现量产的叫高温超导材料。这种新材料好处在于,在低温下运行的时候,临界磁场强度是比低温超导会高很多,可以高一倍以上,至少一倍。高磁场带来的好处,在同样性能情况下,比如说同样能量增益的条件下,我可以将装置体积缩小两个数量级,也意味着你的建造成本大约缩小两个数量级。因为对于任何一台非标设备来说,你的质量或体积决定了成本。这是用高温超导这个材料相比于低温超导来说,它们都是超导,而且运行的温度区别不大,大概是4K到10K、20K区别,零下269度到零下259度这样。张小珺:高温超导和低温超导都是低温。杨钊:温度都很低。但它的临界磁场强度完全不一样。通过显著去提升磁场强度,去显著缩小装置的尺寸,我们得到的好处是我最终这台装置的造价,换句话,我用聚变发出的度电成本就可以显著降低,最终达到可能跟火电差不多,甚至未来规模化生产的时候,是火电一个数量级以下的成本。张小珺:高温超导为什么可以成本更低,体积更小?杨钊:这是在过去六七十年聚变的研究过程中,大家通过上百台装置,上千次实验总结出来的规律——我为了达到一个足够高的能量增益——所谓能量增益就是我的输出功率除以输入功率,就是我产生的能量除以我消耗的能量叫作能量增益。张小珺:是break even的那个关键指标?杨钊:对。如果等于1就是break even,你要做电站就要远大于1,比如说等于10,就是你的输出能量功率是输入的10倍,毕竟你在真正的运行过程中会有损耗。能量增益,它实际上是被物理上的参数叫作“三乘积”所决定的。它的等离子体的密度×温度×约束时间,这三个数一乘,所以叫三乘积。这三个数一乘之后,在一个相对非常复杂的单位下,达到10的21次方。物理学第一性原理告诉你,无论你用什么手段去实现,用氘和氚作为原料,当这个三乘积到10的21次方,大概就是Q在1,当然你再稍微高一点点就是21到22次方这个数量级以内,能量增益Q就从1甚至到无穷,可以长得非常快,类似雪崩一样。一旦过了break even的线,就会往上提一点点参数,能量增益就会提得很高。这个逻辑告诉我们什么?如果你想提高能量增益,你就是提高三乘积就行,因为三乘积会决定能量增益。三乘积在过去六七十年的研究里面,大家发现工程上最有效去提升三乘积的方法实际上要么你把装置做得足够大,要么你把磁场做得足够强,就这两条手段。张小珺:它是温度、密度和能量约束时间的乘积,那不是应该改变这三个数值中的一个?杨钊:这三个数值不能直接改变,相当于是一个以装置性能决定的一些结果。张小珺:装置更大能改变哪个数值?杨钊:它都会有影响。三乘积一个很典型的特点,你单纯提升任何一个参数,大概率剩下两个参数都会往下掉,而且导致你的装置三乘积总性能往下掉,所以你的优化实际上优化的是这个乘积结果,这个乘积的结果会跟一台装置的很多很多参数都相关,它比较复杂。我们并没有一个很好的第一性原理推导出来它到底跟啥相关。最终的做法就是通过上千次的实验,我们去拟合出来这样一个定标率。张小珺:还有一个关键词叫“Q值”,就是能量增益。如果它是1,就break even了。一般有两个关键指标,一个是大于1,一个是大于10。杨钊:对,大于1是一个基本点,否则你小于1,必定是个耗电装置。但你刚刚大于1,也是耗电装置,毕竟你能量转化的过程中还是会有损耗。一台聚变电站它根据你电站的规模和大小不一样,设计范围大概是在Q=5到Q=30这个区间内,你完全能够把一台聚变电站设计出来。远大于1,一般就是大一个数量级,大家就把这个工程可行性一般的标准就定到了Q=10上。张小珺:现在全球能做最高的水平是Q等于多少?杨钊:在磁约束,最高纪录是托卡马克拿到的,这是在90年代从氘氚等效,并没有用氚直接做实验,我是用氘氘的原料做实验,但因为在物理学上有一个大家都公认的方法就是:假设,我知道了这次实验的等离子体的性质,我又假设,这次实验里面一半是氘、一半是氚,而并不都是氚,因为唯一区别就是碰撞过程中发出的能量,它的散射截面会不一样,这是一个很微观的物理学测得很精准的东西。它可以通过一个氘氘的实验结果,推算出,假如变成了50%、50%的氘氚,Q值是多少。氘氚等效最高实验记录是日本在JT-60(U)这台装置上做到Q=1.25。张小珺:是比较低的。杨钊:刚刚过1。前两年,时间不长,用惯性约束这条技术路线,就拿激光去打一个氘氚靶,这个Q做到过1.5,当然这是直接有氘有氚的一个靶核。所以这是真正的氘氚实验上最高记录是惯性约束这边在美国的NIF这台装置上实现Q=1.5。全世界范围做到三乘积21次方,21次方数量级的托卡马克其实大概有三四台,刚刚说的日本JT-60(U),美国有TFTR和DIII-D,英国还有一台JET,几台装置都接近10的21次方。也是因为在90年代,我们有了托卡马克非常高参数接近于break even或者Q=1.25已经超过break even实验参数。全世界范围内说下一台我们做一台Q>10的,也就有了ITER计划。“我们不是科学研究,不是武器研究,而是为了发电”张小珺:接下来介绍一下可控核聚变演变的历史。杨钊:最开始我们介绍了核反应的基本过程,总之是用反应后的质量的减少转化成能量,就是爱因斯坦的质能方程,去释放能量的一个过程。聚变最开始大家是做氢弹,70多年前,我们第一次掌握了核聚变的能量,就是第一个氢弹的爆炸。当氢弹爆炸了之后,人们就在想我怎么样能够去把氢弹这种武器级别的、不受控的,炸了能量就释放出来的这么个状态,变成基于我们的设计要求,比如我这个时候想要500兆瓦的电输入,就能放出500兆瓦。如果说1G瓦的电输出就能放到1G瓦,根据我的设计要求去释放能量这种可控状态。这个过程已经持续了70年左右的周期了。张小珺:爱因斯坦相对论中重要的方程是质能方程:E=MC²。杨钊:质能方程说的是,一个东西它有质量就意味着它本身是储存着能量。对于核反应,你可以看到的是反应前有一堆原子核,反应后变成了另外一些原子核,但我们会发现,如果这个反应过程中,它反应后的所有产物的质量加起来,假设它比反应前的所有反应物的质量加起来要小,根据质能方程,我们知道质量小了,能量总是要守恒,就会变成反应后产物的动能。这就是通过核反应去产生能量的过程。因为反应前加起来比较重,反应后加起来比较轻,但为了能量守恒,反应后的这些轻原子核需要最终以动能形式把这个能量去守恒,这个反应过程相当于初始两个没什么能量的东西撞了之后变成新的产物,且每一个产物都携带大量动能——这个是爱因斯坦的质能方程。张小珺:质量和能量可以相互转换。杨钊:非常小的一个质量损失就会产生巨大的能量。下来就是从人们掌握了氢弹技术之后,就在思考怎么做到可控核聚变这个事。在地球上要不然用惯性约束去做可控核聚变,要不然用磁约束。实际上惯性约束,包括美国做到Q=1.5的NIF装置,包括国内对标的就是中国工程物理研究院(业界称之为九院)的神光这台装置,本质上都是在做全球禁核的条件下的一些先进核武器研究,包括你看美国NIF官网上也是这么写的。因为这套方法,就不太适合民用,需要用非常多激光,非常短时间内,同频照射在靶核上,压缩靶核产生一个反应。它没有办法稳态做这个实验。我们也知道,把电能转化成激光能量,这一步折损非常大,能量转化3%都不到。虽然我们看的这个Q是1.5,聚变输出能量除以输入,但输入的实际上是激光的能量,并没有算怎么端到端从电转化到激光这一步是不考虑的。这两个原因吧:一个是没有办法稳定运行,只能短时间脉冲运行;第二,激光的转化效率极低。所以大家在做惯性约束的时候,没有把它去当民用,当发电的路线在做,它就是一个研究高效率核武器的方法。张小珺:它能够有多长时间持续?杨钊:一个反应大概是纳秒级别,10的负9次方秒,这是一个反应过程。张小珺:它有什么优点吗?惯性约束。杨钊:从需求上来说,比如说早期核武器,氢弹燃烧效率是很低的。什么意思?我有一大块可以用来去反应的原料,但发生了这个核反应,通过爱因斯坦的质能方程真正释放能量的那一部分的比例很小,大部分的原料不会参与反应,达不到反应条件或者反应就终止了。惯性约束一个方法就是我怎么样能不能,原来1%、2%的反应比例,我提到80%,甚至提到更高,我就可以充分实现这个核反应,用最小原料释放出来最多能量,这些都是惯性约束可以去研究的一些问题。包括在这种短时间内,高温高压的条件下聚变反应过程中,它到底经历什么样的过程,能够提升反应效率,这些都是惯性约束,在这样一个受控环境下去研究的问题。好处是相比氢弹来说,它是一个更可控、更可测、更方便研究的反应环境。如果我们最终目的不是科学研究,不是武器研究,而是为了做发电,主要方法就是磁约束的方法了。磁约束我刚才也介绍了,不同磁场形状对应不同磁约束下面的分叉的技术路线,而在磁约束的众多技术路线里,托卡马克其实是在三乘积,我们刚才说的决定能量增益的物理参数做得最高,而且高于其他技术路线大概至少两个数量级左右,甚至到四个数量级。在上个世纪60年代左右,苏联这边就想到用甜甜圈一样的磁场位形托卡马克这个路线,并且他们造出来第一台装置就发现性能非常好,比其他之前正在同步研究的技术路线的性能都要高很多。大概从上世纪六七十年代开始,全世界范围都把主要的精力投入到托卡马克的原因,它的性能看起来要比其他的技术路线都要好,都要高。张小珺:这个技术路线是全球都共识过的技术路线?杨钊:对。你像中国之前两个大的科研院所——等离子所、585——过去建的这些大装置全部都是托卡马克。美国几台高参数装置也都是托卡马克。包括为什么全世界最大的装置ITER也是一台托卡马克。就是因为它具有最多的人在研究,有最多实验结果,而且在实验上真正做到过接近21次方的实验参数。张小珺:全球大概有多少台托卡马克?杨钊:100台以上。人们在不断去建更高参数的托卡马克,不断拿到更好的结果,就吸引到了更多资金。一步一步地,就像我刚才说到上世纪90年代,全世界有三台甚至到四台的时候,托卡马克已经做到21次方了,就产生了ITER计划。在这个过程中,也就经历了从早期大家只是为了验证这个磁场位形对于等离子体约束好不好,所以用最简单的工程方法,就是用铜去做托卡马克,这是最早期,甚至绝大部分的托卡马克都是用铜做的。再往后是到2006年左右,像中国EAST这台装置,就是全世界第一台低温超导的托卡马克装置,从铜的托卡马克的时代就过渡到了用超导去做托卡马克,因为你未来要真正发电的话一定是超导装置,它的发热小,能够长时间运行。再到我们刚刚说2018年左右,第二代高温超导的材料可以工程化量产了之后,美国最开始MIT和CFS(Commonwealth Fusion Systems,美国麻省理工学院分拆出来的联邦核聚变系统公司)公司一起就提出了一台SPARC装置,它的目标是和ITER性能一样,磁场提高一倍,体积缩小到2%到3%,成本大概也是从250亿欧元降到10亿美金。这就大体来说聚变,尤其是磁约束托卡马克的发展历史,就是这么一个过程。到了去年,也就是2024年,包括到现在为止,高温超导托卡马克这条技术路线实际上一直是一个想法,直到去年我们建成了全世界第一台全高温超导托卡马克,就是这个“洪荒70”这台装置。第一次在工程上,在一个完整装置级别,去验证了高温超导托卡马克这个事不只是一个概念,它可以在工程上建出来,也可以真正实验运行,且运行参数稳定。类似于假设曾经所有船都是用木头造的,当然最开始是美国,后来我们在国内最早提出,我们说如果你要建一艘真正的高性能航母,你一定需要用钢作为原材料,但是没有人用钢造过船。“洪荒70”就相当于是全世界第一艘,用这个类比,第一艘用钢做的完整的船。它的挑战是啥?当你换了这个主体材料之后,你用木头的时候,是不会思考焊接工艺,不会思考除锈的问题,而且木头本身就能漂在水上,钢放在水上就沉了。虽然船都是阿基米德原理、浮力原理,排水量足够大,总是可以浮起来的。但当你把主体材料换了,整个船的设计,整个加工工艺,全部都变了,并且在真正下水且运行之前,没有人可以100%确定它下水之后船不会漏水,不会沉下去。这就是我们做70这台装置,它不是性能很高,但它是第一艘用新材料建造的完整装置。证明了这种新材料去建一台完整装置工程是可行的,并且我让它下水,让它往前去走,然后开回来,正常运行它是稳定的,所有系统接口都是通畅的。张小珺:你们验证了体积可以更小,成本可以更低没有?杨钊:坦率说没有。这件事是需要在我们下一台装置“洪荒170”去验证,因为你要谈体积更小、成本更低,你需要满足相同的性能。比如说我需要跟ITER的参数一样,做到Q>10的情况下,我们去对比成本和体积,这就是下一台装置目标。“我们的目标是将聚变的度电成本降到跟火电一样甚至更低”张小珺:为什么在2021年决定创业?要用创业的形式来做?杨钊:在2021年这个时间点,第一个判断是到底聚变发展到什么程度了?一个基本结论是在那个时间点,如果人类不计成本去用聚变发电,肯定做得到。比如ITER这样一台装置,它就是建造周期长,但设计、很多事情都是90年代定稿,它是非常保守、非常传统的这些物理去做的设计。张小珺:它做得出来吗?杨钊:如果不犯一些工程上的低级错误,把它做出来肯定是会发生的,只不过它需要花多长时间和花多少钱问题。它也是全世界从国际联合项目上来说,应该是第二贵的项目了。张小珺:第一贵是什么?杨钊:国际空间站。当你的资金规模到了上百亿,好几百亿欧元或美元,类似千亿人民币规模,这种国际联合的方式就是一种可能可行的方法。当然最开始,实际上90年代大家已经看到聚变做到Q>1,10的21次方参数做出来几台。最开始是苏联和美国提出来的ITER计划,两个当时的强国去说,我们能不能一起去做出来一个真正对于工程上来说有意义Q>10的装置。这就是90年代最开始提出来的ITER计划。后来,苏联解体了,这个项目由欧盟主导了,装置也落在法国。最开始是苏联、美国提出这个项目,后来欧盟主导,中国、美国还有其他四个国家加起来一起参与的这个项目,一直推进到现在。张小珺:会不会造出来发现过时了?杨钊:这是一个现在的情况,它确实是由于时间、工期过长,导致你看现在可能真正的一台Q>10的装置人们认为最早可能就是美国的那台高温超导的SPARC装置,2022年开建,到2026年,他们对外宣称是明年就能建成。回到最开始的问题,2021年,当时最基本判断就是,聚变这件事其实从科学的可行性,甚至说如果我不计成本的话,从工程的可行性来说,是有比较扎实的基础和经验积累的。到底聚变商业化这件事我们缺啥?我们需要啥?核心就是我们需要将聚变度电成本降下来。换句话说什么叫作聚变商业化,这个在团队里面也非常清楚:你哪天把度电成本降到跟火电一样了,你就商业化了;哪天你把度电成本降到比火电低一个数量级了,你基本上就可以提供一个数量级甚至两个数量级以上的能源,这就是所谓的能源自由的一个状态。金标准就是你的度电成本。这件事,我们2021年一个看法是,也许高温超导这样一条技术路线可以显著缩小装置体积,将成本两个数量级降低,让我们觉得是可以干的。张小珺:是工程化的拐点?杨钊:是,由于新材料变革导致了成本,比如说火电两个数量级以上降到跟火电差不多。像这种,你差量级的成本的区别,你用渐进式的——今天降个10%,明天降个20%的方法,甚至能不能过去都不一定,非常漫长。往往真正变革就是有一些材料的变革或者新的技术的变革导致数量级在缩小,你再规模化,再把它降一个数量级,那是另一件事。在2021年,就觉得这件事情,我们的目标是要将聚变度电成本降到跟火电一样甚至更低,我们这个公司提供的价值就是在最终聚变发电这个技术过程中,所有能够持续去提高性价比,降低聚变度电成本的事,就是我们都要去做的事情。这是为什么我们最开始装置整体设计一定是自己做的,装置磁体从设计、加工到最终测试、运行,我们都要自己做,这都是显著核心影响你装置成本的东西。包括后面,我们基本上核心的子系统全部都自研了。从提高性价比来说,设计变更一点点,成本区别会非常大。你的核心子系统,因为它会影响其他所有系统接口,它的设计变更一点点,整个装置变化也是非常大的,而且如果我能够将我的成本都变成原材料成本,所有的知识和信息是由我团队自己摸索出来,我就可以真正将一台装置的成本降到,有可能,你越往上推它的原材料成本越低。这是我们当时决定设计上完全自己去干,核心子系统自己去设计加工,自己去产出,包括最终调试、运行,因为只有你把这台装置对你来说变成完全不是黑盒,所有东西透明,你才知道我有一个新的目标,比如说达到一个更高参数的情况,我去优化它成本的时候,我要调什么系统,每个系统最优值在哪里。2021年我们想清楚了这件事情,也就搭起来了,最开始就4个人。张小珺:为什么以创业公司的方式去做?不用高校的方式。杨钊:我们现在要解决的问题是用最短的时间、最小成本实现整个聚变性价比飞速的量级的变化。这件事本质就是一家创业公司适合干的事。从一个组织属性上来说,最短决策流程,最高效办事方法,将一个东西从实验室推到真正低成本大规模使用的过程,这是创业公司最擅长做的事,而不是高校或者科研院所最擅长做的事情。张小珺:能不能讲讲你的背景?杨钊:我是学物理科班出身的。北大物理系,博士在斯坦福做理论物理的方向。我做的是比较底层的物理,是做量子引力,做弦论,包括量子引力和量子信息的交叉,离这个世界比较远的一些基础物理。大概在博士期间,在斯坦福主要做的都是这些非常基础物理研究。张小珺:什么时候你想做可控核聚变?杨钊:最早想在本科阶段,我们学物理,对于各个分支基础物理研究是有一些概念的。当时确实想过,到底学物理对于未来人类生活和发展什么东西有比较重大影响?在当时,认知甚至到现在,对于未来一定会发生且影响最大的一件事,就是聚变。十年的尺度上,我们是觉得聚变可能在物理学对于人类整个文明来说,它影响最大的一件事。对我个人来说,我比较喜欢,包括我当年做物理研究也是,比较喜欢做的一类事:这类事情无论是不是我做,早晚会有人做,所谓历史必然会发展的这么一个趋势,这类事情对我来说是吸引力最大的一件事。这件事里面,通过聚变改变能源的供给结构,甚至我可以提供比当前数量级以上更高能量的一件事情,这件事对整个人类的发展是一个巨大变革,可能我想不到更大变革的事情了。甚至这件事做成之后,通过驯服聚变能,用来做无工质太空旅行的发动机,而不是现在的化学火箭,才是真正有意义的行星际的商业航天。这件事情它无论从能源供给还是从动力的角度,都是对于人类发展来说巨大的一个变化。当时就属于“有生之年系列”,本科就觉得这辈子早晚如果有可能的话,参与到这件事里面去。张小珺:全球现在science领域的“明珠”有哪几颗?杨钊:又难倒我了(笑),我想想。非常多,在科学领域这样的问题非常多,因为我是做基础理论,人们对于引力的量子描述,真正微观尺度下,引力到底是一个什么样的行为,而不是一个经典理论,从爱因斯坦开始就已经在研究,到现在也没有完全把这件事搞清楚。包括宇宙学上的暗物质,使宇宙膨胀的暗能量是啥也不是很清楚。有非常多基础物理问题,大家很希望能理解,但我们至少现在,无论是理论还是实验这个认知都达不到这个水平。再具象一些,大家在不停研究新的材料,这个就多了去了。我们现在大家都觉得很习惯像手机、半导体,也就是在七八十年代那个时候当时最前沿做固体物理的,做半导体理论的这些人,发现材料预测了之后,经过几十年工程化,变成芯片。现在大量的,比如凝聚态物理学家或者固体物理学家,他们在研究的很多新材料,很前沿的材料,在未来慢慢都会变成我们日常生活中应用的物件。张小珺:你是2017年博士毕业,后来你在干吗?杨钊:2017-2018年在美国待了一年,那个时候只是觉得早晚要做成像聚变这种事,你还是要通过创业的方式去实现的。但刚毕业也不知道该干啥,是实话,有一年的时间在思考,如果我去做一个创业的一个公司,我第一次要做什么事情。2018年底回国之后是金沙江投了我们那个公司。张小珺:先在金沙江创投做EIR(入驻企业家)吧?杨钊:对,到2018年底出来之后当时做了一家人工智能和音乐教育结合的一家公司。我的物理研究方向弦论,直接做弦论相关的创业项目也确实找不到。我毕竟是技术出身,从技术方向去推到应用上就找了和音乐教育的契合点,这个公司大概做了三年吧。到2021年,经历了在线教育非常快速变化的周期。从2021年就在思考到底聚变能不能在现在这个时间点开始去做,如果不能原因是啥,我还需要推动的东西是啥,如果能,为什么不从现在开始去做?张小珺:2021年初,你们一起拜访了很多科研院所和供应商,调研的过程怎么样,得出行业结论没有?杨钊:最开始调研,我们想理解的是,如果我们在国内推动可控核聚变,我会不会被人才、技术和原料这三个东西卡住脖子?调研下来的结果是原料,包括供应商,这些核心你可能会用到的供应商,基本不太存在卡脖子现象。从我们选择高温超导这条技术路线,我们不会的,大概率全世界范围内大家也不会,都是很新的。传统的,已经积累的这些知识大部分是学术公开的,从技术本身的话,并不太存在被卡脖子卡住的事。人才上,更不存在这个问题,尤其是这件事的核心,一方面是有研究的事情,但更重要的是工程化落地。中国在工程师的团队里面,确实是有红利的。基本判断就是,在那个时间点,没有一个no go。没有什么东西是说你不能现在开始去做的,这个东西它是一个正向循环很快速的东西,它是有大量的在你做它的过程中,积累出来的经验和知识,能够迭代到下一代产品里面的东西。它不是一个有关键点,这个关键点你做到了,或者别人用这个关键点都能做到——不是的。它是有大量的很细碎的问题,每一个问题都是需要一个一个去解决的爱迪生式的问题。而且它本来的初始投入量,资金量也比较大。它是一个先手优势很强的这么一个行业。人才是稀缺的,换句话说可能就没有,就全部自己培养;知识是自己积累的,且正向循环是非常快的。每一代资金量都是比较大的,作为一个创业公司来说。当你有了领先优势之后,同样方向的第二名就基本上,我的先手优势过大了。赶早不赶晚。“聚变装置里面反应的过程就是一个充满了能量且无序的状态”张小珺:你们第一代产品“洪荒70”是怎么建造的,为什么叫“洪荒”?杨钊:洪荒在中国神话里面是一个非常早期、能量非常充沛的一个状态。当然了,这个状态是一个非常混沌的状态,它有很多的能量,一个非常无序的状态。聚变在做的也是这样一个事情。你把很多原来很无序的东西,核能把它转变成电能。这台装置里面反应的过程就是一个充满了能量,且非常无序的状态,我们把这一系列通通命名为“洪荒”。70是它关键参数,大半径的参数,70个厘米,就叫70。张小珺:第一代产品怎么构造出来的,它的意义是什么?构造出一台装置到底是一个什么样的过程,多少人?杨钊:最开始就4个创始人,到这台装置建成大概是一百人团队,两年时间。站在现在这个时间点,一台装置设计大概会经过哪些过程?首先先做物理设计,你这台装置希望实现的最核心目标是啥,基于这个目标会变成一些我的等离子体状态,这就是我要达成这个目标,最核心的物理参数,它需要实现到什么状态,这就是几个物理设计。基于这个物理设计,等离子体要达到这样的性能,下一件事就是概念设计,你的每一个子系统都需要去实现什么样的参数才能够让最终的物理参数达到你刚刚的物理设计的目标,比如说你的磁场要多大,磁场的形状变成什么样子,你把等离子体它在真空环境里,真空环境真空室的结构长什么样,各个子系统的运行温度是什么样子,包括外围什么时候往里面加料,充气,什么时候去诊断,去看当前的运行状态,什么时候做控制等等。基于你要实现的物理参数的目标,你会把每一个子系统的核心目标设计出来,它的运行工况要设计出来,它和其他子系统之间的接口要设计出来。否则,每个子系统互相打架就拼不起来。张小珺:有多少子系统?杨钊:一级子系统我们粗分的话大概10个。二级子系统,大概30多个。在做完概念设计,至少为了达成我们最大目标,转化成这个物理目标,每一套系统都有一个设计概念,可行性大概是这个东西能做出来。做到这一步之后再往下一步叫工程设计。我要一个多大流量,多少温度,多少流速的一套低温系统,你的工程上怎么把它实现出来。低温系统里面有什么分配阀箱、液氦储罐、制冷机,工程设备全部都设计出来了。到这一步,有了每个系统的概念之后,把它要设计成真正可以用来制造、加工或者我选型买设备的一套工程设计方案。出图纸,出技术需求。这就是第三步的工程设计。完成工程设计之后,就进入到了加工制造阶段,有一些我们把图纸给到外面机加或者制造的供应商,焊接的供应商,大的罐罐、真空压力容器,让它们去制造,返给我们,有一些比如说磁体,我们去另一个厂房自己制造加工。张小珺:磁体自己制造?杨钊:对,你买钢,买树脂,买高温超导的带材,自己加工成你设计的那个样子的磁体,最终交付到装置的安装现场去。不同的子系统现在开始去进入加工状态,按照我们设计的方案,把它全部加工出来。加工完了子系统就到验收状态,每个子系统是不是在子系统级别可以满足你的设计指标?如果可以,就验收,不可以,该修的修,该返工的返工。子系统验收完了之后就开始进入总体装配状态,我们要把不同子系统安装起来,变成一台完整托卡马克,就是你看到的我现在的这台装置。装配过程中,还有测试,装完之后就是联调我的整个系统,装完之后整体能不能按照我的设计要求去运行在我的设计参数内,如果联调全部通过,就到了最终实验运行状态,我就要朝着我最开始设计目标,能不能实现它,等离子体能不能点亮。我们今年就希望能做到千秒级别的稳态运行,能不能做到?从最开始的设计到一步一步的细化设计,到制造,到装配,到最终运行,其实就是验收过程。你到底建完的东西有没有达到你最开始的设计目标,它就完成了整个过程了。在这个过程中,每一个环节它需要的能力也都不一样。前面的设计阶段,基本上我们的做法就是从需求出发,读文献、看教科书,从最基础的公式开始推起来,定出来核心的最重要的参数,再基于这个参数在外面去细化,一步步细化,去做工程仿真,比如设计出来的结构——力,能不能在各种工况下满足材料的要求?受热能不能散热散出去?电磁学的性能磁场给你的设计是不是一样的?大量的工程仿真。对于一些东西,参数上仿真上算不准,就做工艺实验。比如大的件很大,先做一个小样,这个小样,你的仿真和实验参数是不是有可比性?是不是在10%、20%预测范围内?相信这个实验和仿真对照之后,我就相信仿真模型,我再给它往外推,我再做更大件。这个过程中,不断通过读文献,通过仿真,通过实验和仿真的对比,去相信这套模型,再去往真正的子系统去造,造这个完整的磁体。张小珺:这个过程顺吗?杨钊:肯定不顺。中间有非常多的,你每个环节都在不断出问题,而且你越接近实物状态,你的问题越大,问题越多,改动去修补的成本越高。张小珺:工程中遇到最难解决的几个问题是什么?杨钊:每天都是一大堆的问题。最难的实际上是不知道什么出了问题,当你遇到一个问题的时候,分析问题,由于很多东西你不能直接测,你不可测,去猜测这个问题的原因这件事是比较费劲的,也是比较折磨人的。张小珺:解决最长时间的是什么?杨钊:我们一台托卡马克装置的环向场磁体有12个,我们在造第一个全尺寸工艺件的时候,如果造好了可能就是第一个正式件了。前面的工序都很顺利,因为我们每一道工序之后都会做质检,判断这道工序前后性能有没有变化,是不是符合预期,都很顺利。但到最后一道工序的时候,就发现性能有所下降,比我们预期的要下降得不少。这个东西到底能不能真正成为一个正式件去上装置,它性能虽然有下降,但还是一个比较好的性能。到底是什么原因,这道工序里面哪一道原因造成,因为最后一道工序看起来也没有特别复杂的事情,结果就是有性能衰减。这个时候,当时分析来分析去,找各种原因。最终决定就是,这个磁体是没有上正式装置的,我们就把它作为后续的实验的测试件了。分析下来的原因,到现在也不完全能够百分之百锁定,但我们怀疑可能是制造过程中的一些振动可能造成了机械损伤造成的危害。当然,我们后面就有在全链路过程中防振动的工艺安排,从制造也好,运输也好,所有过程都做了这件事。后续所有磁体都没有这个现象,我们大概觉得应该是这个方向。但是哪个环节我们也不知道——是加工环节、运输环节,甚至说我们这加工或是别人那加工,都不知道。你只能全链路把这个事弥补掉,而这件事毕竟它是到完整磁体交付的前一步出的问题,那你就相当于要重做一个。当然这是工艺验证件了。做的好的话,full size全尺寸,我们可能就会用做正式件。最终没有用,就造成了整个项目要多造一个。也没啥惊心动魄的,你看到性能下降,一分析原因,分析了半天也不完全确定,最终在整个生产制造所有的内外部供应商里面全部都按猜测的原因去调,期待第二个能够成。第二个成了,那你就放心了。张小珺:你们一开始就做了一个“三步走”战略,能不能展开讲一讲?杨钊:第一台是当时洪荒70那台装置,我们叫原理样机,验证用高温超导的新材料建一台完整的装置到底工程可不可行,工程可行性的一个验证。这台装置在去年我们交付了。第二台装置是我们洪荒170这台装置,它是一台能够实现十倍能量增益,并且在全世界范围内成本最低地实现这个性能的装置。用这种技术去造,它能做出来一台跟火电成本差不多的聚变装置。在这种成本条件下,能不能去实现比如Q≥10这样聚变性能的参数。如果可以,用来建一台示范电站的核心技术以及我一直在强调的成本这件事情,都是一个可以商业化的技术了。我们希望从现在开始三年时间,就是27年底之前,能将这台装置建成。这是我们的第二个里程碑。一旦这个装置建成,并且去实验运行,拿到跟我们设计一样的Q≥10结果,我们认为这个技术是足以支持建一台聚变的示范电站,这是我们的第三台装置。希望在30到35年这个时间点建一个大概电输出功率在50万千瓦的中型火力发电站规模的聚变的示范电站。当然第三台装置对我们就是一个商品、产品,我们将它卖给国内去建聚变电站的业主,有可能是这些核电业主,如果是氘氘去做的话,它因为不涉氚,可能是地方的能源的央企、国企,都有可能。对我们来说,我们作为最核心的设备供应商,我们把这个托卡马克卖给这些核电业主。张小珺:这个周期好长,要从21年到35年。杨钊:差不多10到15年的时间点。张小珺:你们最近发了经天磁体,这也是你们一个标志的里程碑,它对洪荒170非常关键的部件?杨钊:它是个非常重要的部件。单说经天磁体本身,它应该是全世界磁场强度最高的一个大孔径的磁体。之前这个记录是美国最开始提出高温超导托卡马克技术路径的美国的CFS公司和MIT在2021年底做的一个叫TFMC的磁体,当时他们做到刚刚超过20特。张小珺:你们是21.7。杨钊:我们将这个参数又提高了接近不到10%的状态。现在全世界有能力做出来这种大孔径的超过20特磁体的团队就是我们,还有美国的CFS两个团队。毕竟我们用这个材料就是为了高磁场,我们现在这个参数应该是全世界磁场强度最高的磁体了。张小珺:你们怎么做到比较高特斯拉的磁场?现在是最高的了。杨钊:从原理上来说,要实现一个很高的磁场,需要很大电流,通过大电流产生一个大的磁场。一个最简单想法,比如我有一个内径要求,就是我那个大口径的要求,我在外面缠足够多超导的导线、导体,我再给它通足够大的电流,它就总是能够形成一个很高磁场。但这个过程中,你会遇到新问题,比如当你磁场很大、电流也很大,物理上你的受力是很大的,因为你的安培力等于磁场×电流。也就意味着当你的电流又大、磁场又大,你导体自身就会在这个磁场下受巨大的力。当你这个力很大的时候,怎么办呢?一般它就想我加很多结构材料,比如我用很多的钢把它这个力扛住,这个时候就会造成一个问题——如果你加了足够多的结构材料,你可以把力分摊掉,但你截面工程电流密度会掉下来,因为大部分截面的面积是没有办法通电的,它是结构材料。这就跟我们的设计是有矛盾的,我们不仅要高磁场,而且要很高的工程电流密度。工程电流密度的好处在于,我们可以在达到相同磁场的情况下,一个更高的工程电流密度就意味着我这个截面的尺寸可以变得更小。工程电流密度就是单位面积上通过电流,当我电流总量定死,电流密度越大,我的截面的面积就越小,最终就会使得我的装置可以造得更小。因为我就不需要那么大的面积去支持这个电流,可以造一个很小的面积去支持这个电流。经天磁体不仅是磁场最高的一个磁体,它还是工程电流密度最高的一个磁体。这两个参数同时达到,才能实现聚变这个装置的小型化的目的。当电流大了,磁场大了之后,不仅受力是一个大挑战,还有一个是电流很大的时候,它会发热。大家都知道“欧姆热”,正比于电流的平方再乘以电阻。比如我们接近22特的时候,单股电流大概在20多千安。大概1纳欧的电阻就有接近1瓦的发热量。对于低温来说,瓦级别的发热量来说已经蛮大了。而它要求的是在这么大的电流下,你需要将整个磁体,因为你不可能所有的都是超导,还会有一些接头连接的部件在过程中也会发热,你要把总发热量控制在百瓦级别,你就需要将所有这些连接,甚至加工过程中引入的电阻,控制在100纳欧这个量级,就是100×10的负9次方欧姆。也就是说你对于热学的控制需要做到非常小的一个电阻。而且在这个情况下,你为了把这几百瓦的热量散出去,你还要专门在这个磁体里面设计出来让它散热的流道,你要把制冷的氦都给它供给到你预测它可能会发热的地方,才能使这个磁体稳定在你的设计温度下去运行。在这个过程中,刚刚已经说了我的磁体为了高工程电流密度已经寸土寸金了,不能放那么多结构材料,你还得挖出来一些洞,让你的流体,让你的制冷东西过去,所以在你真正平衡力、热、电的过程中,你就得去判断怎么样的设计把这三个东西的尺寸都压到极致,且能让它稳定,这样才能设计出来一个高磁场且高电流密度的磁体。这是在设计中它就将所有的参数都推到了一个非常边界、非常极限的状态,这才刚刚完成了设计。设计完成了之后,到底这个东西能不能加工出来?我们刚才说的这个东西,你现在设计的都是完美的导体,没有什么工程缺陷,也不会在加工过程中性能还衰减,你要把这些超导带,把这些有各种非常复杂结构的骨架并到一起、组装到一起,中间有绕制、浸渍、接头的制作,一系列的工序,最终性能都不衰减,才能交付。这个过程中所有工艺的开发也是非常困难的一件事,这个过程中有大量研究的过程。张小珺:它相当于洪荒170的一个心脏还是什么?杨钊:它其实是洪荒170的很关键的系统环向场磁体(TF)。环向场磁体有18个。这18个磁体在170上拼起来之后,它的最高场大概是23特。而我为了充分验证我在23特的条件下可以做出一个磁体,所以我的经天其实是用一个磁体就实现了接近23特的参数。它是对于170的环向场磁体从设计到工艺的非常充分的验证。因为它不会直接上170,但是用制造经天磁体的设计方法和工艺加工方法,我们肯定是能做出来170的环向场磁体的。因为那个磁体的参数没有这个高。张小珺:为什么不能直接造洪荒170?杨钊:第一,洪荒170是一个成本很高,差不多30亿的设备,所以在几年前刚开始创业的时候,我也没有能直接拿到这样一个资金支持的能力,以及完全没干过托卡马克的四个人的团队拿到这样一个体量的资金几乎是不可能的事情。另一方面,一个托卡马克没有干过的团队怎么能有信心把这样一台全世界最高参数的装置建起来?在这个过程中,我们就设定了,比如我们先造一台参数比较低的像洪荒70这样的装置造价可能1.5亿人民币,结果花了大概1.2亿人民币做出了这台装置,这样的话证明我们有系统工程能力,在很短的时间内把一台完全自己设计的这么复杂的装置交付,自己设计、建造、交付。这台装置,低参数装置和高参数装置最大鸿沟在哪?就是每个子系统的参数都变得很高。比如70最高的磁场是3.1特,170最高磁场23特,这么高一个磁场,大概接近10倍的变化,我就做一个子系统,比如经天磁体这样一个系统,能做到22特左右,我就可以验证我有能力把170做出来。通过这样一个完整装置验证,还有最核心、最困难的、也是成本最高的子系统的验证,当然我们同步还会做其他子系统的验证,最终证明我有能力把170做出来。我再拿到170这样建造的资金,无论是从里子里,就是我的团队的能力能不能造出来,以及资金的支持上,因为你团队有这个能力,所以大家才会相信你,给你这个钱,让你把这个装置做出来。张小珺:你们验证下来,做出高温超导相比低温超导最终的优势体现在哪些?杨钊:优势就是磁场高导致的装置尺寸小,造成的成本低。为什么是我们在推这件事,或者说国内唯一在推这个事的人?就是因为这个东西太新了。张小珺:成本能下降百分之多少?装置能小多少?杨钊:跟ITER同样性能,Q大于10,装置的体积大概是ITER的2%,小了50倍。成本大概也是50倍左右,大概从250亿欧元,在我们看来4亿美金就能做出来。张小珺:洪荒380是磁场更高吗?杨钊:会高一些,大概从23特到29特左右。装置的大小也会更大一些。380比170的尺寸又大接近一倍。整个装置,线性尺寸大了一倍,可能体积二的三次方,接近大了十倍。磁场更高了一些,从23特大概到了29特。它作为一个示范电站,170还是个实验装置,我不会去造一些让它长时间运行的水冷系统,包括把它产生的能量导出来的这些水冷系统,都不会去做。这是最小化成本的一个方法。当然380,作为电站,你这些都要做的,所以它的尺寸都会往出挤。所以380是一个完整的能够长时间运行的示范电站的要求做,而170只是个实验装置,短时间达到实验参数的目标的最小化成本的东西。张小珺:380需要多少成本?杨钊:我们的目标实际上是希望将380的售价做到1000瓦4万到5万人民币的水平。对于一个500兆瓦的装置来说,大概是在200到250亿人民币量级。刚刚我们国内新建成的第四代裂变的第一台示范堆,高温气冷堆,大概是1000瓦在4万到5万人民币,而我们认为如果第一台聚变示范电站能做到这个成本,因为我的原料是没有放射性的,我的反应产物也是没有长时间反射性的,就是我比裂变电站,无论从原料的可得性,还有它的安全性,以及废料的处理上来说,都有非常大的天然的优势。所以当我的造价跟它一样的时候,这台电站对于核电业主来说可能是有比较大的吸引力的。这就是我们的目标。张小珺:总共大概是多少?杨钊:200亿到250亿人民币。你说的造价,我说的是售价。单纯的成本我们估计在100亿到200亿之间。张小珺:100亿到200亿之间,再加上170需要30亿,所以总共相当于需要200亿左右?杨钊:第三台装置,洪荒380实际上是我们的一个产品,是我们卖出去,我们作为这个产品设备的供应商把它卖出去的。对我们来说,我们团队内部需要的钱主要是把170这台装置建起来,大概30亿人民币。“我们感觉Helion是科学风险很高的技术路线”张小珺:你们和Sam Altman投的那家Helion Energy技术路线不同吗?杨钊:不太一样。Helion也是磁约束,但它的磁场卫星是直线的,不像我们是甜甜圈。他们叫做场返位形的,英文叫做FRC(Field-Reversed Configuration),场返位形的装置。从已经公开的学术资料上说,现在最高参数的场返位形的装置大概“三乘积”做到,我没记错的话是17次方,可能还没到18次方,所以大概还差21次方,还差4个数量级。所以,我们感觉这是一条科学风险很高的技术路线。打个比方,比如我现在要造一架飞机,我现在有0到10米的飞行的实验数据,我用这个实验数据外推到万米高空,我去设计一架飞机,你很有可能在外推的过程中根本意识不到空气在变稀薄、气温在变低这些事情,所以你用0到10米的空气动力学的实验数据外推到万米高空,大概3个数量级,你可能设计出来的东西最终在那飞不起来。这就是当你比如说到17次方的实验数据,你要外推到21次方,面临的是一样的问题。你不知道从17次方到21次方的过程中,会不会有一些新的或者是涌现的新的物理过程会引入,在你的方程里面可能原来都没有。如果有,可能现在这个外推的设计就失效了。当然,如果运气非常好,什么新物理都没发现,甚至可能新物理是帮你,对你有增益的,那当然更好。但是这些事情在我看来都是属于科学风险,甚至这个问题的答案是否存在都不确定。我们觉得这种事情其实更适合科研院所或者是大学去做。张小珺:他们更激进一些?杨钊:对,我们认为没有在科学可行性上已经完成了验证。张小珺:他们为什么选这个方向?杨钊:这个我就不知道了。能够看到的一个结果,包括美国有很多的聚变公司,几乎不存在有两家聚变公司的技术路线完全一致。我刚才说的聚变这件事的先手优势太强了,领域里面也没多少人,每一件事都需要很多的资金——所以同一个技术路线上的第二名其实是比较难存在的。所以一条技术路线上,可能投的第一家,也就把所有的人才,包括自己培养的资金什么都拿到了。张小珺:并不是因为竞争带来了垄断,而是因为人才垄断、资金垄断?杨钊:对。导致第一名会比第二名的优势高很多,那么就没有理由再去支持第二名了。同一条技术路线上,除非你换一条技术路线。张小珺:在技术路线上,CFS和你们更相似一些?杨钊:对。张小珺:核聚变和AI的关系是什么?杨钊:基本的逻辑是这样的,首先现在AI肯定是在一个指数增长快速发展的过程中。一个基本的物理定律告诉你的事情是任何一个指数增长的东西它会持续增长下去,直到遇到一个瓶颈。比如说短时间大家可能觉得AI的瓶颈,像算力的瓶颈、芯片大小的瓶颈、数据的瓶颈,如果产能能供起来,数据能生成,再往下一个真正的大的瓶颈是能源供给的瓶颈。因为它牵扯到的基础设施的要求是很高的,如果它成为主要的耗电,现在已经占到百之几了,如果它变到百分之几十,就意味着需要有更大规模的能源供给。其实能源这个事,它的需求永远是不缺的,只要是能够提供这个能源,一定会被使用完,关键就是能不能提供这么多能源。但是所谓的能提供这个能源的核心逻辑就是你的能源成本能不能降下来?你同样的成本不变的情况下,你提供不了更多能源,因为它没有收益。只有当你的成本能显著下降之后,你才能数量级地增加能源的供给。而我们认为只要你能够增加能源的供给,它一定会被迅速地使用干净。张小珺:PMF天然是存在的。杨钊:对。就像电脑,你从来不说你计算的能力、供给的能力是远超的,但凡你的性能一旦上去,一定会有一个应用把你的新的电脑的性能全部用干净,所以能源也是一样的。我们觉得AI肯定也会在不久的未来也会因为能源成为一个瓶颈。当然现在可以看到很多大型的计算中心它的耗电量非常大。像美国这边很多的聚变或者支持新能源、支持聚变的公司都是这些互联网或者AI公司,他们也在为下一步尤其是无限能源供给的这件事情在布局。张小珺:反过来呢,AI对于核聚变?杨钊:AI对于核聚变来说也是一个非常有效的降本增效的过程。第一个是我在装置运行的过程中,可以很快且精准地提供实时的AI驱动的控制手段。因为你控制的实时性要求很高,传统模型计算的复杂度很大,非常复杂的模型是没有办法用来实时控制的。但现在随着AI加速,包括对于这些非常复杂的物理过程通过AI science等效的模拟,就可以提供精度又比较高、且运算时间很短的算法,这种算法对于我最终装置的实时控制实际上是有很大的帮助的。包括一两年前DeepMind在欧洲的一台托卡马克上完全用AI做它的控制,在短的时间、很少的迭代周期内就能做到原来人们可能花了很多的时间通过实验积累才能做到的实验位形。所以AI的第一个事是对于装置的实时控制是有很大帮助的。第二,它可以帮我们代替一些诊断的设备。很多高精尖的诊断其实它的成本很高,而且研发的难度也很大。这个逻辑就有点像把AI应用在一些图像或者是医疗领域,就是增强你诊断的能力。你可能不用造一个成本很高的硬件设备,但是基于AI的算法,它可以给你一个精度更高或者分辨率更高的诊断的结果,所以AI在诊断系统上的使用也是现在大家在研究的一个大的方向,它带来的就是你降本增效的手段。第三,在等离子体模拟上,如果我们的模拟足够的精确,原则上我们不需要做实验。当然你的现实和你的模拟就是有偏差的。比如你设想的是一个理想的装置,但你加工过程也会有零点几、一个毫米的偏差,你装配也会有偏差,你这儿有个洞,原来设计的理想模拟上是没有的,所以这些东西都可能造成你用第一性原理对于理想模型的仿真和真实的情况是有gap的。如果我可以用一些AI的模型,我用一些真实的实验数据作为输入去训练这样一台已经建成的装置的仿真的软件,我都不需要拓展到其他的装置,就对于这台装置我的预测能力足够强,它就可以大大地减少我通过实验最终拿到我想要的参数的过程。因为原来你可能需要做一百次的实验,现在可能做了一两次的实验,在你的仿真环境里已经能够得到很好的预测了,那中间很多的实验就不用做了,你就可以往下一个阶段去做实验了。所以,它基于一个更快速且更精准的等离子体的预测,使得你实验的周期会变得很短。AI对于整个聚变来说它的整体的效果就是降本+增效,减少时间的成本,减少资金的成本,它的使用场景就是在控制、诊断,包括实验运行这些方向上都是能够提供很大的帮助的。张小珺:Helion声称在28年建成世界首座核聚变发电站,你们是在35年,你们要晚7年?杨钊:对,28年建成一台聚变电站确实非常激进,而且就我们团队内部来说,我们不完全理解从原理上来说它的那套东西为什么会work。当然,这家公司它公布的资料很少,我们很难判断,比如确实有些物理是我们没有考虑到的,他们有非常独到的一些物理的理解。但基于大家现在都公开的资料,以及物理学大家知道的这些知识来说,我们不完全理解这条技术路线他们最终怎么去实现能量盈亏平衡的问题。张小珺:国外有CFS、Helion,国内也有一些公司,包括你们、循环智能等,中美核聚变的格局以及进展有什么差异?杨钊:一个基本态势是中国和美国都是发展非常快的,而且主要是这两个地方对于聚变这个事的投入也好、进展也好都非常快的。这两个市场也是天然分割的一个市场。什么意思?大概率中国的聚变技术不会靠美国去帮我们实现,所以这件事中国肯定需要自己的团队把这个事做成,而美国也不可能大概率不会是从中国进口这样的技术去帮它建聚变电站,所以它也有它本土的团队去做这件事情。无论是从需求上,从资金能够提供的体量上,从人才的储备上,从供应链和技术的储备上,这两个地方都是大概率最早恢复实现聚变的两个地方,且他们之间应该都会有自己的团队在做,这是一个基本判断。当然现在来说,大部分商业化的投资还是发生在美国或者西方国家,总共融资额,聚变领域有大接近60亿美金了,美国这边,西方这边有40家创业公司了。国内的创业公司不到10家,应该是几家的样子,比较少。现在应该是到百亿人民币这个量级,总共加起来。我们的判断是中国和美国大概率是最早实现聚变商业化的地方,且大家都是一个相对来说技术比较独立——你也不知道别人是怎么干的,大家也大概不知道你是怎么干的,大家都自己去干。张小珺:核聚变发出第一度电到底有多难?杨钊:还是以跟火电成本差不多的条件去发出第一度电,确实比较难。我们认为,2030-2035年的这台装置洪荒380的这个目标,不计成本的话,其实像ITER也能做到。张小珺:其中最难的几个问题是什么?杨钊:有几个GAP:第一个是你先得是一台发电装置,当然Q要足够大,比如Q大于等于10,你要证明你的输出能量远大于输入能量,而且这个等离子体你是能够实现且能够稳住的。这就是170的目标。第二个就是我们在380需要解决的问题,你不只是一个短时间能够让它去稳定住,你需要很长时间,长脉冲去实现一个高参数。这件事对于你的每一个子系统的工程稳定性,对于整个装置的热稳定性,长时间运行过程中控制的稳定性都是提出了非常高的要求。你不能任何一个系统,比如说这个系统自己就运行不了5个小时,那你肯定整个装置就不能运行5个小时,每个子系统可能就熄火了。在长时间稳定运行这件事情上的话,它对于最终实现聚变,聚变电站未来甚至周级别、月级别运行的一台设备来说,这是一个需要去跨过的坎儿,现在state of the art大概是做到EAST 1000秒,这本来到1万秒,甚至10万秒来说都是坎儿。这是第二件事,长时间稳态运行。第三件事就是在我们看来,真正的聚变商业化它的原料其实是需要用氘氘去发电的,而不是氘氚。因为氚,第一它是一个管制很强的东西,你用氚是能造氢弹的,所以监管也好,成本也好,都是非常高。导致的结果就是,直接结果就是你的度电成本肯定高,而且你的监管要求非常高,所以你无论是设计上也好,安全的保护上也好,都是有非常高的额外的成本,并且监管的要求一放在这,你的建造周期一长的话,那你最终都会折算成度电成本。而氚在自然界上也是不能稳定存在的,所以你需要一边发电,一边产氚,这件事对于很多工程上的难度也增加了。张小珺:怎么产氚?杨钊:产氚就是在你聚变过程中产生的中子去打锂6,就会产生氚,产生的中子之后,消耗了一个氚,但是你在过程中需要产生大于一个中子,用这些中子去跟锂6反应,产生大于一个氚,这样的话氚增值率要大于1,消耗了一个,产生了大于一个,最终把产生的氚收集起来再当原料送进去,这就是氚工厂所做的事情。如果要用到氘氚,你势必要去做一个氚工厂,在装置运行的过程中还要生产氚,且把氚再送回装置里面去。我们希望做的是氘氘的电站,我根本不需要氚,氘在海水里面多的是,够人类使用百亿年。我就只需要将氘作为原料,去进行聚变反应,我就不涉及氚了,整个装置包括监管,包括成本,甚至都不需要考虑氚工厂的事情。我们觉得真正规模化商业化的电站需要解决这个氘氘的问题,氘氘反应要比氘氚还是要再难一个数量级。张小珺:从发出第一度电到成为一个全球的主流能源,中间要跨越多少年?杨钊:我们可以做类比,当年第一台裂变示范电站到真正产生商业的裂变堆,大概经过了十年。时间尺度上差不多。第一台聚变的示范电站到它成为一个商业化的电站,可能也是这样的一个过程。张小珺:如果氘氘聚变能够实现且能源成为无限的,世界会变得怎么样?杨钊:当能源可以极其廉价地使用,文明会变得很不一样。比如说很多的问题,粮食还是不是需要种植出来,还是我可以工业合成,主要成本其实就是能源的成本。如果你的整个能源供给都非常便宜,大量的现在可能是靠一些自然过程产生的产品,都可以通过人工合成的方式去实现了。我们现在还在考虑飞出地球,有大量的能源损耗。可能能源很廉价的时候,你也不在乎这个事,你可以去提供足够多的能源去产生,去做星际殖民。只要是能源的结构产生了变化,人的文明都会跨一个数量级的。这个事大概率是一个文明跃迁的变化。“这场创业像一场持续地爬山,山的高度是指数增长的高度”张小珺:你会觉得每天很boring吗?在临港。杨钊:每天很充实,每天都有大量的问题,大量的工作要去做。这个感觉,生活上来说相对比较简单一些,就是工作、休息,大概就是这样——跟当年读博士也差不多,还好吧。张小珺:生活就是两点一线?杨钊:差不多。早晨大概9点钟上班,晚上不一定,大部分(时间)可能8点左右。实验的时候可能就辛苦一点,就不一定了,通宵也正常。张小珺:作为一个商业公司,你的目标是什么?杨钊:怎么说?最短期的第一个商业目标就是把380这台装置卖出去,真的建一台示范电站,而不只是说像70或者像170这样的实验装置,这些都是为了把380卖出去做的准备。商业公司嘛,你的核心还是要去把它商业化,把它做成产品。张小珺:第二步呢?杨钊:我刚才说的像380这台装置,它的成本还是比火电要高一些的,这台装置建成运行了,就要考虑怎么去把这个成本降到,我们的目标就是比火电低一个数量级。通过在哪些设计上的优化,哪些原料上的成本降低,哪些工具工装上的降低,使得批量化之后你的成本可以再降一个数量级。张小珺:你有遇到一个坎,觉得过不去了那种吗?杨钊:至今没有。你回看,其实大家还是胆子挺大的,最开始4个人啥都不会,说实话,因为没干过,完全没建过。但那个时候就觉得应该像70这台装置两年努努力能建起来。当然前期确实有很多都不懂,边学边干。现在再回看感觉竟然把它干出来了,但你在最开始,你有没有觉得它是什么不能干出来,只会觉得我有这么多的问题需要去解决,可能跟我们现在去看170甚至380的感觉是一样的,有这么多的问题需要去解决,你只有把它干完之后,你才意识到有这么多的难题,回看的时候感觉当时很勇敢,但其实你在经历的过程中,只是看到的是有一堆问题,且这些问题我们的判断都是有解的,我们需要把这些解找到,就这么一个过程。至少到现在为止的话,没有感觉到有什么不能做的,或者no go的东西。张小珺:有压力很大的时候吗?这个压力好像是分散的,它不是一个集中的。杨钊:对的。短时间的,从波动上来说最高的肯定是每次做实验是压力最大的,因为那就是你干了这么多年的项目,两年的项目,最终能不能实现。点亮那一刻前面的调试。张小珺:点亮那一刻之前是什么心情?杨钊:调了蛮久的,并不是那一刻产生的事,你可能调了一两个月才调出来。所以调不出来就想怎么还调不出来,哪一步不对,哪个设备没有达到它的运行的条件,不断地找问题,不断地计算,直到亮了。亮了那一刻?亮了就亮了——这事亮了——好的。张小珺:就下班回家了是吗?杨钊:那天就不用熬夜熬特别晚了。张小珺:平时给团队打气吗?杨钊:可能这方面做得少一些,基本上没有过团建,做完这个项目就马上赶去下一个项目了。张小珺:你觉得你作为一个CEO的长板和弱项是什么?杨钊:长板可能是相对来说比较理性,情绪非常稳定的一个人。劣势,跟情绪相关的一些事情,我做得确实比较少。张小珺:对于快速变化的世界,你觉得你最远能看多远,特别是在能源变革上?杨钊:(此处停顿4秒……)只能看到趋势,你说十年之后具体这个东西会长成什么一个具象的样子,很难。十年之后,聚变,至少第一个示范电站能全世界建成,这件事可以看到。再过十年,商业化能不能做成,我觉得大概率能做成,但是具体长成什么样子,是哪一个事情的优化相比于示范电站能够实现这个事,不是很清楚。只能里程碑式的总结性的节点,你可能能看到十年、二十年这个样子,但是如果你要看一条路过去的话,大概可能看到五到十年这个阶段,你能看到一条路怎么过去,再往后的这条路可能都是分岔得很厉害,猜不到是什么变革,那个时候需要你更多的信息才能够做一个路径上的判断。张小珺:你觉得有什么原因能让奇点会失败了?杨钊:想想。(此处停顿6秒……)人不够,钱不够,事没做成,三个事吧。钱不够,你可能下一个想做的事都没法启动,那就只能一直等机会。如果钱够了,人不够也好,事没做成也好,最终交付的时候没达到你的设计目标,还有没有一个second round机会,不一定。因为每个东西的成本都很高。人不行可能是一个过程,它的反映还是事没做成。我觉得这两个,钱不够和事没做成,一个没法启动,一个没法交付,这两个东西没做成,比如170,380你肯定卖不出去。380你要是能卖出去了,没做成,一样的。我们商业逻辑的核心点,你刚才说了它的PMF是简单的,需求是个真需求,它的产品是一个明确的产品,只要你能做出这个产品,需求一定能满足,就是能不能把这个产品做出来的问题。能不能把产品做出来的问题就是,你有没有资源让你做这个事,以及有了这个资源,你能不能真的把它交付到跟你设计一样成本足够低的东西。只要你能做出来度电成本比火电低,就是能成,它的问题就转化到一个非常明确的问题上。张小珺:你们怎么形象化来描述这个创业?像走钢丝吗?——好像也不像。因为你每天生活很平和,而且偏安一隅。杨钊:它是一个持续地爬山。这个山的高度是一个指数增长的高度,只不过你可能每一步,从最开始可能一次只能迈一小步到最后一步能迈一米,你可能有更先进的装备,后面一步能迈十米。张小珺:没做成就摔下去了?杨钊:滚下去了,就是这样一个过程。而且这个山什么时候有没有一个封顶的高度,我至少现在还没看到。你已经爬到的地方都是你的积累,但你可能未来要做的事是越来越高的东西,而且增长速度是越来越快的。张小珺:如果这个山没有登上去,摔下来了,你会怎么想?杨钊:很可惜,会非常可惜。但是看看有没有机会接着往上。看你摔到哪,接着再往上去爬,菜就多练嘛。我觉得主要就是看不到一个爬不上去的理由——如果爬不上去就说明菜,那就能不能别那么菜;或者能不能菜就多练,再接着往上爬。推荐阅读独家对话Manus肖弘:世界不是线性外推,做博弈中的重要变量朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”独家...

MCP很好,但它不是万灵药|一文读懂 MCP

中国商业科技新闻网《AI未来指北》特约作者|kongjie 博阳编辑|萌萌当下AI领域最炙手可热的概念,莫过于MCP。MCP 指的是Model Context Protocol(模型上下文协议)。令人意外的是,一个协议系统的热度,甚至盖过了OpenAI发布的最新模型,成为行业讨论的焦点。随着Manus的爆火,全球开发者对Agent技术的热情空前高涨。MCP作为Agent工具调用的“统一协议”,短短两个月内即获得了OpenAI、Google等主要AI公司的支持,从一个边缘技术规范一跃成为AI生态的底层标准。它的崛起速度之快,堪称AI基础设施领域的“现象级事件”。而开发者社区也涌现出各种MCP服务,仿佛它已是AI工具调用的“终极答案”。然而,当最初的狂热稍退,我们不得不面对更复杂的问题:MCP真的适用于所有场景吗?它是否被赋予了过高的期待?本文将从MCP的起源出发,剖析其核心价值与局限性,澄清常见误解,并探讨它的未来发展方向。我们的目的并非否定MCP的价值,而是希望回归理性——只有明确它的实际定位和适用边界,才能真正发挥它的潜力。毕竟,技术史上从不缺少“神话”,而真正的进步,往往始于祛魅之后的清醒认知。MCP的本质:统一的工具调用协议什么是MCP?MCP是一种开放的技术协议,旨在标准化大型语言模型(LLM)与外部工具和服务的交互方式。你可以把MCP理解成像是一个AI世界的通用翻译官,让AI模型能够与各种各样的外部工具"对话"。为什么需要MCP?在MCP出现之前,AI工具调用面临两大痛点:第一是接口碎片化:每个LLM使用不同的指令格式,每个工具API也有独特的数据结构,开发者需要为每个组合编写定制化连接代码;第二是开发低效:这种"一对一翻译"模式成本高昂且难以扩展,就像为每个外国客户雇佣专属翻译。而MCP则采用了一种通用语言格式(JSON - RPC),一次学习就能与所有支持这种协议的工具进行交流。一个通用翻译器,不管什么LLM,用上它就能使用工具 / 数据了。这就是MCP的全部功能。MCP的工作原理MCP的技术架构可以简单理解为一个由三个核心部分组成的系统:MCP Host、MCP Client和MCP Server。这三部分共同工作,让AI模型能够顺畅地与外部世界交流。要准确理解MCP的角色,我们可以将其比作现代企业环境中的一个通信系统。在这个比喻中,用户扮演着企业高管的角色,负责理解用户需求并做出最终决策。,大模型(如Claude或GPT)理解高管的指令,规划任务步骤,判断何时需要使用哪些外部服务,并最终整合信息为高管提供答案。Agent系统则是真正的私人助理或执行秘书去执行,而MCP则像是秘书使用的标准化通信平台或企业服务接入系统,它不做决策,只负责按照秘书的指示,以统一的格式和协议与各种服务提供商交流。在MCP出现之前,AI与外部工具的交互就像是处在通信标准混乱的时代。每当秘书(Agent)需要联系不同部门或外部供应商时,都必须使用不同的通信设备或软件:给财务部打电话需要座机,联系IT部门需要用Slack,预订会议室要用Outlook,订餐则需要使用外卖App。每个系统都有不同的操作界面、不同的数据格式和不同的通信协议,秘书必须熟悉所有这些不同的系统才能高效工作。对开发者而言,这意味着为每个工具单独编写连接代码,既费时又缺乏可扩展性。MCP的出现改变了这一局面。它就像是一个统一的企业通信平台,无论秘书需要联系哪个部门或服务商,都可以使用同一个系统,遵循同一套通信协议。MCP的技术架构由三个核心组件构成:MCP Host (执行环境) 就像是企业的办公环境和基础设施。它提供了高管办公和秘书工作的场所,是一切活动的发生地。在实际应用中,Claude Desktop、Cursor这类AI应用就是典型的Host,它们提供了用户与AI交互的界面和环境,同时也为Agent和MCP Client提供了运行空间。MCP Client (通信枢纽) 像是秘书(Agent)使用的标准化供应商。它不参与决策,不理解任务本质,只负责按照秘书的指示,以正确的格式和协议与各种服务提供商通信。MCP Client是一个纯技术组件,处理通信协议、数据格式转换和连接管理等底层问题。MCP Server (服务终端) 就像是各个专业部门或外部服务提供商,每一个都负责特定类型的服务。有的提供数据分析(如财务部),有的提供信息检索(如资料室),还有的提供内容生成(如市场部)。在MCP架构中,每个Server提供特定类型的功能:工具、资源或提示。在MCP出现之前,当秘书需要完成高管的多项任务时,必须切换使用多种通信工具和系统,熟悉各自不同的操作方式。例如,预订会议室需要登录内部系统A,获取财报需要使用系统B,订餐则需要拨打餐厅电话。开发者则需要为每个工具单独编写连接代码,效率低下且难以维护。在MCP之后,秘书只需使用一个统一的通信平台,就能以相同的方式联系所有部门和服务提供商。开发者也只需实现一次MCP接口,就能让AI系统与所有支持该协议的工具进行交互。MCP不是Function...

苹果手机用了15年才“通用”,机器人还要多久?|具身之路02期

中国商业科技新闻网《具身之路》系列直播,关注具身智能技术演进、场景应用与行业争议。本期直播,分享走向通用机器人的有效路径。中国商业科技新闻网《AI未来指北》特约作者 小燕编辑 郑可君从AI的爆火,到具身智能的走红,再到今年CES上,老黄以“美国队长”的形象高举人形机器人,仿佛“机器人养老”和“机器人做家务”的时代即将到来。但现实很快给了这场幻想一记耳光。就在不久前举行的全球首届人形机器人半程马拉松上,机器人连完成“持续行走”这一通用化的第一步都困难重重。理想与现实的落差让大众开始质疑:我们距离第一款真正的通用机器人还有多远?什么路径才能使我们更接近“通用”的目标?在中国商业科技新闻网《具身之路》系列直播第二期中,中国商业科技新闻网邀请维他动力联合创始人赵哲伦,“九只机器狗”主人、零零后CEO、硬件工程师张振尧,以及前STARY电动滑板品牌创始人&CEO陈正翔,探讨具身智能的产品化起点以及实现通用机器人的有效路径。其中,维他动力联合创始人赵哲伦从产业化与商业化的角度,分享了他对通用机器人发展的理解与思考。维他动力(Vita Dynamics)是一家机器人公司,于去年12月在北京成立,其三位创始人分别是地平线前智能驾驶总裁余轶南,和前理想汽车智能驾驶产品总监赵哲伦,前地平线软件平台总架构师宋巍,核心业务是面向C端用户交付机器人产品。《具身之路》系列第一期回顾:《机器人跑马拉松,累到“断腿”的是工程师》在本期直播中,赵哲伦分享的核心观点如下:1、通用机器人的发展路径,类似智能手机从PDA到iPhone的十五年演变,必须依赖底层技术成熟与应用场景迭代,不可能一蹴而就。2、真正能落地的机器人产品,必须抓住原理型技术向工程化技术过渡的临界点,结合场景拆分移动与操作能力,优先实现自然交互。3、机器人产品交付要优先从简单、容错率高的任务切入,沿着“低复杂度、低风险”到“高复杂度、高风险”的路径渐进扩展,逐步验证PMF并扩大应用边界。以下为赵哲伦的观点整理:要走向通用,先交付产品我其实特别想问大家一个问题:机器人实现“通用”需要多少年?是5年内?10年内?还是10年以上?此外,未来的“通用机器人”是否一定是人形?我们创业、做产品落地,必须面对的现实问题是——到底能不能做出真正有用的产品。所以我也经常会问自己,什么叫“通用”?为什么说人形机器人“通用”?是因为它“像人”,可以适配很多环境吗?我们现在身边有什么真正通用的东西?手机、电脑,或者人本身?我觉得手机可能是一个非常典型的通用产品。它是一个“通用信息终端”,我们所有的信息交互、内容获取、数据接收都可以通过它来完成。它之所以长成现在这样,是因为它刚好最适合被人用手握住,也方便放进口袋。这个设计跟今天大家看待人形机器人的逻辑很像:因为它是服务人的,所以要“像人”。说到手机,我们都知道2007年iPhone发布后,手机形态基本定型。但如果我们往前看,其实早在1992年,苹果就发布了第一款PDA产品“牛顿”,虽然不是乔布斯主导的。后来PDA真正做得比较好的是美国的Palm公司。当时北美的PC普及率已经上来了,所以自然有人想:“能不能把电脑放进兜里?”这其实就是“掌上电脑”或者“通用信息终端”的原始构想。但这个想法真正落地,花了15年时间。当时的PDA很多技术条件都还不成熟:屏幕是黑白的,没有好的显示能力;电阻触控笔,没有电容屏;装不了相机,拍不了照;没有内容生产能力;存储能力也差;续航也不行。所以,这个“通用终端”最后能成型,是因为技术一步步积累上来的。这15年里发生了什么?通信技术从1G、2G慢慢发展到3G,手机硬件开始能支持触控、能装相机;随身听(比如Walkman)推动了电池和存储的发展;掌机游戏(从GameBoy到PSP)推动了显示与计算的发展。最终是这些领域的进步汇聚到一个时点,也正好有一个像乔布斯这样理解人文与科技的人,把它们整合在一起,才出现了iPhone这个真正通用的信息终端。我觉得,今天的机器人一定也会走到那个终点,但过程中会先出现大量垂类的、有价值的中间产品。每一代都可能是很优秀的产品,服务于不同的场景。我一直挺认同Steve Jobs那句名言:“Real artists ship”,真正的创造者是要把产品做出来的。而现在很流行的那句“先做个垃圾出来,再迭代”,其实也挺有道理。你先得“上路”,才能不断迭代、打磨。前几天我刷到一个小红书的海报,说的是产品迭代路径:不是一开始就做出一辆完整的车,而是先从滑板车做起,逐步进化。这个思路我很认同。对我们这类C端机器人公司来说,特别核心的一件事就是“沿途下蛋”。从我们过去5到10年做自动驾驶的经验来看,像L2级的高速NOA、城市NOA等,很多都是随着芯片能力、数据量、算法能力的发展,逐步实现的。中间每一个阶段都“下蛋”,产生了具体价值,也积累了商业闭环所需的能力。这是一个现实的过程。所以我并不认为短期内能一下子做出一个完全通用的机器人,这是不现实的。那我们怎么去选择机器人该具备什么能力?我觉得最底层可以拆成三个:第一,自然交互;第二,自主移动;第三,自主操作。这三项能力的组合和不断增强,是具身智能真正产生价值的基础。未来的路径,肯定也是在这些基础能力的持续演进中,一步步接近通用。走向通用的有效路径是什么?我们心里一直有个明确的划分,就是技术大体可以分成两类:一类是“原理型技术”,另一类是“工程化技术”。其实大家也都很清楚,原理型技术更多是科研热点,它的目标可能是实现0到1的突破——哪怕成功率只有1%、2%,只要能跑通一次,在科研层面就算是完成了任务。但如果我们要真正把产品交付到用户手里,那就需要的是工程化技术。这种技术的要求是,你得把成功率从90%做到99.999%,后面可能还要多几个9。因为一旦你要向用户交付某个具体价值,它的出错率就必须足够低,才有真正的商业意义,这是一个非常核心的差别。那今天我们怎么看这个事?如果把机器人拆成几个关键模块,我们认为像四足和夹爪这些技术,其实已经到了可以从原理型向工程化过渡的阶段,是有机会推进的。而像两足行走和灵巧手,目前还更多停留在实验室阶段,相对不那么成熟。举几个例子,其实有些领域已经从原理阶段向工程阶段过渡了,比如大模型驱动的自然语言交流。再比如我熟悉的城市智能驾驶,还有现在的大模型应用如Chatbot——这些东西已经开始进入大规模落地,比如高速智驾,现在已经成为十几万级别车辆的标配。这些AI能力已经实际用到了用户端,已经从科研走向了应用。我们在“从0到1”的创业过程中,选择的策略是:从那些原理型技术正好过渡到工程化的“临界点”上,去做落地,这是我们做产品的基本逻辑。而在落地场景上,我们一开始就把场景分为两类:一类是outdoor,即自然环境;另一类是indoor,也就是人类构建的空间。说到这里,我得提一句:我以前是Elon Musk的铁粉,十年前我专门飞到美国参加了Cybertruck的发布会。Elon一直要将机器人要做成“人形”。但我现在也开始有一些新的思考。比如说,我们今天讨论人形机器人,很多逻辑其实都是基于“人所构建的世界”,我们的大部分生活空间,比如桌子高度、椅子尺寸、橱柜层级,这些都是基于人的臂展和腿长来设计的,所以人形机器人在室内环境中是天然适配的。但一旦离开建筑,进入户外的自然环境,人形反而会失去一些优势。人类从四足到直立,是一个不断丧失户外生存能力的过程。在自然环境中,机器人如果具备四足、全地形移动能力,其实更有优势。所以我们在找场景的时候,也在拆解能力的分布——outdoor更看重的是自主移动的能力,而indoor更依赖的是自主操作的能力。这是一个天然分化出来的逻辑,比如说在室内,大多数情况下轮子就能解决问题。如果不是那种一会上楼、一下下楼、一会擦桌子、一会送外卖的场景,其实轮式机器人已经足够应对。相对来说,移动的刚需没有那么高。另外一个很关键的点是自然交互。无论在哪种场景,自然交互一定是机器人最核心的交互方式。每一代爆品产品的出现,往往伴随着交互界面的变革。比如乔布斯定义了GUI(图形界面),今天机器人最理想的交互方式,一定是AI native的自然语言交互(NUI)。我们现在在做的四足原型机,第一项开发能力就是“跟随”,第二项就是“自然语言交互”。因为当你发现机器人能跟着你走的时候,你天然不想再掏手机控制它,也不想拿遥控器,你只想直接对它说:“你靠近一点”或者“你离我远一点”。这是人对智能的天然期望。从我们的角度来看,室外场景更需要的是负重、自主移动、全地形能力;而室内场景更需要的是操作能力,比如做家务。做家务其实并不需要四足机器人;而如果你要外出跑腿,那手臂反而没那么必要。我们现在的策略,是把这两个能力栈分开来做,有选择地聚焦,既保证一定的通用性,又能降低商业化路径中的复杂度和成本。机器人产品交付优先完成简单低风险任务接下来讲讲机器人产品交付的优先级排序。现实里,我们家中存在各种任务,比如清洁、整理、收纳,而除了扫地机器人搞定的地面清洁,其他大多数任务都还没有被机器人真正解决。我们可以用一个二维坐标来理解任务的分布:横轴是任务的复杂程度,纵轴是出错的容忍度。举个例子,把晾衣架上的衣服拿下来丢到沙发上,这个任务不算复杂,出错成本也低,就算掉地上了也没关系;但你要让机器人把衣服叠好,就非常难,因为涉及复杂的形态识别与操作规划。如果机器人是在厨房拿一把刀,或者拿一个玻璃杯,那就完全不同了——出错一次可能带来严重损失。所以我们更倾向于优先解决“左下角”的任务,也就是简单且容错率高的任务,通过这些入口切入用户生活,再慢慢拓展向“右上角”的高复杂、高风险任务。这是我们长期做自动驾驶带来的思考路径:别一下子冲顶,要“从左下往右上延伸”。科研挑战当然可以直接对标右上角,但商业化一定得从最具性价比、最容易验证PMF的点切入。比如在有娃的家庭里,玩具经常被扔得到处都是,那是不是可以让机器人帮忙整理?比如沙发上堆了一堆衣服,是不是能帮忙做基本收纳?这些问题比“帮你在厨房切菜”要好解决得多。这就是一个典型的渐进路径。*本场直播由中国商业科技新闻网与科技播客“脑放电波”联合举办如果你想深入了解具身智能,欢迎扫码加入ima知识库「人形机器人、具身智能资料库」,本文作者为该知识库主理人。(如需交流欢迎加作者微信:aiyukuailetongzai ,烦请备注公司+职务)推荐阅读:机器人跑马拉松,跑“断腿”的是工程师昆仲资本姚海波:2025年,机器人赛道将淘汰一批“机会主义者”追梦的人形机器人,遇上“精算师”朱啸虎 ...

代码即界面:生成式 UI 带来设计范式重构

作者:张昊然,Motiff妙多Co-Founder、副总裁编辑:Cage曾被专业设计师看成“玩具”的生成式 UI,如今正在和 vibe coding 一起改写开发和设计工作流,需求->代码->设计的新工作流开始出现。本文回溯了这场演变:从早期「拼乐高」式的模板化设计,到 Claude Sonnet 3.5 更新开始模型有了创造力、直接写出高美感和风格化的前端代码,到如今 AI 展现出理解并遵循特定“设计系统”的能力。AI 设计的表达力和风格多样性这两个维度上实现了跃迁式进步,让我们开始期待未来有 AI-native 的设计编辑器,设计中的 70%+ 工作由 AI 完成,类似设计领域的 Cursor 甚至 Devin。设计师的价值不再是操作设计工具进行构建,而是回归设计本身进行更多的思考、呈现更多的创意方案、推进更高质量的决策。本文是一篇读者投稿,来自 Motiff 妙多的 Cofounder...

一场财报电话会透露两个信号:马斯克的工作重心、特斯拉的使命

4月23日消息,美国当地时间周二,特斯拉在美股盘后发布了该公司2025年第一季度财报。财报显示,特斯拉当季总营收为193.35亿美元,同比下滑9%;归属普通股股东的净利润为4.09亿美元,同比暴跌71%;不按照美国通用会计准则,归属普通股股东的净利润为9.34亿美元,同比下滑39%;归属于特斯拉普通股股东摊薄后每股收益为0.12美元,同比下滑71%。不按照美国通用会计准则,归属普通股股东的每股收益为0.27美元,同比下滑40%。财报发布后,特斯拉首席执行官埃隆·马斯克以及多位高管出席了财报电话会议,解读财报并回答了投资者与分析师提问。核心要点:对于投资者关心的精力分配问题,马斯克称5月份减少DOGE业务上的投入,将更多时间投入到特斯拉公司的业务上来;马斯克认为,自动驾驶和人形机器人是特斯拉的未来,年底前部署上千台Optimus机器人,不到五年时间可以实现100万台的量产目标;特斯拉称汽车业务由于本地化制造的推进,关税冲击很小,但能源业务,本地制造涉及到的设备采购等会明显受到冲击;6月份在得州奥斯汀落地Robotaxi,相比量产后再改造的Waymo,特斯拉具备从制造到业务运营全链条支撑的能力,成本更有优势。特斯拉将工厂定义为产品,目前可以实现33秒下线一辆车,极限情况下,目标为5秒下线一辆车;即将推出的车型基于现有产线制造,外形和结构上与当前Model 3/Y类似,价格更加实惠。以下为特斯拉第一季度财报电话会议精华版:马斯克:逐步从DOGE退出,特斯拉的未来在于自动驾驶和人形机器人众所周知,我近期参与美国政府效率办公室(DOGE)的工作引发了一定争议。从5月起,我将在DOGE事务上投入更少时间,更多地回归特斯拉。当然,我仍会每周抽出一至两天处理必要的政府事务,具体视特朗普的需要而定。特斯拉多年来历经风雨,数次面临生死考验,但当前的情况远未达到“危在旦夕”的地步,甚至可以说与之毫不相干。尽管今年我们或将遭遇一些意料之外的挑战,但我对公司的未来依旧充满信心。特斯拉未来发展的核心,将围绕大规模生产自动驾驶汽车与人形机器人展开。我始终相信,只要计划顺利推进,特斯拉终将成为全球最具价值的企业,甚至市值可能超过紧随其后五家公司的总和。我们计划于6月在得克萨斯州奥斯汀启动自动驾驶网约车(Robotaxi)服务。我们将从Model Y开始,在奥斯汀推出无人监督版FSD。从明年中期开始,自动驾驶技术将开始实质性地改善公司的盈利能力,并在下半年实现指数级增长。与此同时,特斯拉始终致力于推进供应链本地化,力求实现整车制造与供应链布局同处于同一大洲。在所有车企中,特斯拉受关税政策的影响相对最小。Optimus机器人项目进展顺利,预计到今年年底,在特斯拉工厂内部部署的Optimus机器人数量将达数千台。未来几年,我们将以前所未有的速度扩大产能。我有信心,我们可以在不到五年内实现年产100万台Optimus机器人的目标,甚至可能提前到2029年。我们的能源业务表现非常强劲。Megapack(大规模储能系统)能帮助电力公司显著提高总电量输出,未来能源储能业务将有望迈向太瓦级的规模。尽管短期内面临许多挑战,但特斯拉的未来比以往任何时候都更加光明。我们公司的使命是通过提供价格可负担的AI机器人来实现可持续的普遍富足,这大概就是人类在地球上能实现的最接近天堂的未来。CFO瓦伊巴夫·塔内贾:Model Y生产线升级导致交付下滑第一季度交付量减少的主要原因有两个:一方面,我们在全球范围内同步升级了所有工厂的Model Y生产线,以切换至新款车型;另一方面,我们的品牌及员工在部分市场遭遇了恶意破坏和无端敌意,影响了当地的销售表现。尽管如此,第一季度我们仍成功售罄了所有旧款Model Y库存。我们的运营支出持续增长,主要源于与AI相关项目(如Optimus)及多款车型(包括Cybercab、Semi和经济型车型)的研发投入。关税政策对我们的业务确实产生了一定影响。不过,特斯拉是一家高度本地化的企业,目前在美国产线中约有85%的产出符合《美墨加协议》(USMCA)的本地化标准。能源业务受关税的影响尤为明显。目前我们主要从中国采购磷酸铁锂(LFP)电池,而新的关税政策将显著推高该业务的成本。虽然我们正在美国建设本地LFP电池产线,但现有设备的产能尚不足以全面满足需求。同时,我们也在积极寻找来替代供应链,但这仍需要一定时间推进。尽管美国市场可能面临压力,我们在中国的新储能超级工厂已于第一季度正式投产,这将支撑我们在中国及其他非美国市场的能源业务增长。关税对我们在本地资本投资也有重要影响。为了扩建产线或建设新产线,我们必须从海外采购关键设备,因为美国本土的制造能力尚不足以完全满足这些需求。从中国等地进口这些设备所带来的成本明显上升,而中国依然是目前唯一一个具备足够规模、能够供应这些设备的国家。尽管我们在优化成本结构上已尽了最大努力,今年的资本支出仍预计将超过100亿美元。以下为投资者提问环节:问:从RoboTaxi推出到规模化的过程中,存在哪些风险?马斯克:首先,我想再次澄清下“CyberCab”和“RoboTaxi”之间的区别。计划于今年6月在奥斯汀实现全自动驾驶的是Model Y车型,它将首次在没有司机的情况下进行付费载客。这部分目前进展顺利,正按计划推进。我们预计,在今年年底之前,这种自动驾驶付费出行服务将在美国多个城市推出。我们认为,到明年中期或下半年,将有数百万辆特斯拉能够实现完全自动驾驶。当然,这个过程存在很多风险,比如区域环境差异。美国东北部经常下暴雪,自动驾驶系统的表现可能需要微调。我们追求的是通用人工智能模型,它能适用于不同地区,而不是依赖高精地图或硬编码规则的传统方法。这使得我们的系统更具可扩展性。与人类驾驶相似,我们的系统依赖“数字神经网络+摄像头”来决策,就像人类依赖“生物神经网络+眼睛”。所以,人类驾驶员在哪些情况下会面临挑战,系统也一样。Autopilot软件负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy):我们的FSD系统虽然属于通用模型,但确实可以根据不同地理位置动态调整部分参数。我们在中国的FSD部署就是很好的证明:几乎不需要大量的本地数据,系统就可以很好地泛化适应完全不同的驾驶风格。你可以把这种“本地化调整”理解成类似于AI的“专家混合模型(Mixture of Experts)”,即一个大模型中有多个小的专家网络,各自负责特定任务,但又共享核心能力。这种方式既保持了系统的通用性,又能适应局部特征,效率高且更易扩展。马斯克:如果你没看过来自中国的那些自动驾驶视频,强烈推荐去看看。中国用户真的很有意思。他们把车开到土路、山路上,很多人甚至在没有护栏的狭窄山路上启用FSD,那是直接通往悬崖的路啊!但它成功了。那真的太勇敢了!车辆工程副总裁拉尔斯·莫拉维(Lars Moravy):我们的研发目前正处于B Sample阶段,首批大规模样车将在第二季度末下线。之后几个月,我们会开始在得州超级工厂大规模安装相关设备,并按原计划于明年开始量产。问:无人监督版FSD何时能在私人车辆上使用?马斯克:我们预计将在今年年底前,在美国部分城市上线无人监督版FSD。当然,我们对安全性极度重视。我们希望FSD的安全性不仅“等于”,而是“显著优于”人类驾驶。最终目标的检验标准很简单:你能否上车睡觉,然后在目的地醒来?我有信心,今年底前,在美国多个城市,这会成为现实。问:特斯拉是否仍计划在今年推出更廉价车型?还是说会采用现有车型简化版以提高性价比?莫拉维:我们仍计划在今年推出新车型。虽然量产速度可能比预期稍慢,但并无重大阻碍。这些新车型的主要目标是实现工厂产能的最大化利用,而非建新产线。因此在设计上,我们会充分利用现有产线来完成产品制造。我们始终聚焦于降低车辆总拥有成本,其中月供是决定性因素。为此我们坚持要将低价新车型尽快推向市场,同时保证在目前资源和产线限制下仍具备盈利能力。问:特斯拉是否认为RoboTaxi市场将是“赢家通吃”?你们如何看待与Waymo的竞争,特别是在价格、地理限制和监管灵活性方面?马斯克:问题的核心在于:Waymo的车太贵了,而且产量极低。而我们的车辆,造价可能只是Waymo的四分之一甚至更低,而且可以大规模量产。Waymo选择了搭载昂贵的传感器套件(例如激光雷达),而我们坚持只用AI+摄像头。更有意思的是,谷歌本身是AI领域的巨头,但却走了硬件传感器路线;而特斯拉从零开始,自建了世界级的AI软件和硬件芯片团队,没有收购过其他公司,全部是我们自己打造的。我现在看不到有其他公司能在这方面与特斯拉竞争。也许未来会有变化,但目前来看,我相信我们会占据RoboTaxi市场90%甚至99%的份额。如果我们明年就能投放数百万辆自动驾驶汽车,而其他厂商无法做到同样的规模,那么无论从产品还是市场占有率上,我们都将遥遥领先。未来几年,路上可能会有超过1000万辆特斯拉自动驾驶车辆。我们不仅仅是在开发软件解决方案,同时还制造车辆本身。不像Waymo那样,他们是采购车辆然后加装昂贵的硬件。而我们是从头到尾一体化生产,这一点给我们带来了巨大优势。我们已经有了庞大的车队,这些车只需要通过软件更新,就能变成自动驾驶汽车。我们在奥斯汀即将上线的自动驾驶出租车就是加装了FSD的Model Y,没有做任何硬件更改。很多人可能没有意识到:他们今天能买到的特斯拉,甚至已经拥有的特斯拉,将有能力实现完全自动驾驶。我相信,在今年晚些时候,我们将看到第一辆Model Y从工厂自动开到客户家门口,自动完成交付过程。问:你们能透露关于“Unboxed制造方法”的进展吗?马斯克:“Unboxed”这个词可能听起来像是你打开新手机的过程,但其实这远不止于此。这是一场从第一性原理出发的制造革命。在这种思维下,我们把“工厂本身也当作产品”来设计,不只是造车,而是重新定义怎么造车。我们的目标是,在这个新系统下,单条产线的节拍时间可以低至每5秒一辆车。目前最快的产线是在我们上海工厂的第二期,每33秒产出一辆车。但我们新系统的理论极限是比那快6-7倍。我们之所以能做到,是因为我们彻底改变了“造车架构”,从传统的模块设计走向全新的集成方法。可以说,上海工厂是“传统造车”里的A+级工厂,做到了极致。而现在我们要做的是跳出“传统”这个框架,从零打造一个完全不同的系统。而只有完全自动化的高速机器人系统,才能实现5秒一辆车的节拍。问:特斯拉如何应对全球经济风险?马斯克:在垂直整合方面,没有哪家汽车公司比特斯拉更彻底了。特斯拉实现了锂、电池阴极材料、电芯等关键部件的自产,阳极材料是当前唯一未完全自研部分。而且,目前我们在北美所生产的所有电芯中,我们的每千瓦时成本最低。无论从生产到组装,特斯拉自研电芯的成本都比供应商的更具竞争力。虽然本地供应链的初期建设较慢,但长远来看是非常关键的“战略安全资产”。问:特斯拉的Optimus机器人试产线目前是否已经投产?如果是,目前每周的产量是多少?此外,最近的关税政策对未来扩产是否会产生影响?马斯克:Optimus目前仍处于研发阶段,但我们确实计划在年底前能生产出数千台Optimus机器人。Optimus几乎所有部件都是新开发的,几乎都没有现成的供应链可以借用。唯一例外可能是特斯拉的AI计算机,它与车辆中使用的是一样的。对于这种复杂的新型产品,它的产能提升速度由最慢、最不稳定的零部件决定。粗略估算,Optimus包含大约一万个独特的零件。例如,Optimus的机械臂使用了永磁电机,因此受到中国对稀土磁铁出口许可限制的影响。虽然特斯拉整体并不依赖永磁电机,但在像机器人手臂这样对体积和效率要求极高的场景中,使用永磁体电机是有优势的。目前我们正在与中方沟通,希望获得这些磁铁的出口许可。我们已向中方保证,Optimus只是用于人形机器人而非武器系统。到今年底,我们将能生产出数千台Optimus机器人。以下为分析师提问环节:问:为什么Model 3和Model Y仍只占据大约15%的目标市场份额?马斯克:在不久的未来,大多数人将不再购买汽车。这就像智能手机,许多厂商曾试图通过设计出各种不同的传统功能手机来占领市场,结果证明,人们更愿意选择智能手机。诺基亚当年是世界上市值最高的公司之一,他们坚持做翻盖手机,不断尝试不同风格和颜色,而忽视了智能手机才是未来。问:未来Optimus机器人扩产所需的供应链是否也需要迁移至美国本土?是否因关税影响必须招募更多美国本地供应商?马斯克:我们已经采取了大量措施来本地化供应链。实际上我们在本地化程度上已经比任何其他制造商都要更高。我们也在继续推进多项本地化工作,目标是减少因地缘政治不确定性带来的供应链风险。问:Robotaxi的初始部署规模如何?启动当天是否可以在奥斯汀直接叫车?马斯克:我们仍在讨论初始部署的具体数量,可能会从10到20辆车开始。我们会密切观察运营效果,然后快速扩大规模。只要一切顺利推进,你在6月末或7月初前往奥斯汀时,就可以直接体验Robotaxi服务了。问:推出无监督版FSD时,是否会采用类似之前Autopilot与FSD的分级定价策略?马斯克:这是我们正在认真考虑的问题。很多长期试用FSD的用户都反馈说,现在的定价太便宜了。每月99美元就等于拥有一个专属司机,这简直物超所值。目前系统仍然会要求用户全程关注道路,这在某种程度上限制了FSD的价值。但我们会在每几周或每月逐步放宽这种要求,让用户能够越来越自由地使用FSD做其他事,比如看短信、甚至回复信息。最终,当你能在车里完全放松,甚至睡觉时,那99美元将会是你花得最值的一笔钱。问:最近关于特斯拉进入印度市场的消息很多,能谈谈进展吗?塔内贾:是的,我们一直在努力进入印度市场,那里潜力巨大。不过我不想只谈关税,但现实是目前印度的进口汽车关税高达70%,再加上约30%的奢侈品税,这就意味着:同样一辆车,在印度的售价要比其他市场贵一倍。这让消费者感到不公平,因为他们为车付出了高价,而这些钱并不是进了特斯拉的口袋,而是交了大量税收。因此我们对进入印度的时机非常谨慎。我们一直在评估合适的切入点。问:你们坚持“纯视觉”的自动驾驶方案,但外界对其在强光、雾霾、尘土等条件下的表现仍有担忧。你们如何克服这些问题?马斯克:我们采用的是直接光子计数(direct photon count)方式,而不是传统的图像信号处理(ISP)方法。普通摄像头在强光下,比如直视太阳时,会被ISP算法处理得图像“过曝”甚至失真。但我们通过跳过ISP,直接使用原始光子计数数据,因此可在阳光直射或完全黑暗的环境实现自动驾驶。问:媒体最近报道称入门车型被推迟,而且可能只是Model Y的“简化版”,这是真的吗?塔内贾:我们当前最关注的是“可负担性”,并尽可能利用现有产线来制造新车型。但现有产线的形态和工艺是有一定限制的,这意味着我们不能随意更换车身结构或平台。从目前的方向看,即将推出的车型会基于现有产线制造,因此在外形和结构上会与当前Model 3/Y类似,但它们的价格更加实惠,适合更广泛的市场;问:你如何看待特朗普关税政策对特斯拉的影响?马斯克:我要强调的是:我虽然是特朗普的顾问之一,但我不是总统。我可以向他提供建议,但最终由特朗普做决定。整体上,我支持可预测的关税结构,同时我也支持自由贸易和较低的关税。问:你怎么看中美在“物理 AI”方面的发展差异?特别是在人形机器人和无人机这两个领域,谁领先?差距大吗?马斯克:美国目前还无法独立制造先进的无人机,而中国制造了全球约70%的无人机。同时,几乎全球所有无人机的关键零部件都依赖中国供应。所以,中国在无人机领域处于绝对优势地位。我非常尊重中国,它真的很了不起。但美国不应该在无人机领域过度依赖中国。在我看来,没有任何公司,不论在哪个国家,可以在人形机器人领域与特斯拉匹敌。特斯拉和SpaceX目前在“物理AI”(尤其是人形机器人)领域都是领头羊;不过我有些担心,在这个赛道上,从第二名到第十名,可能会全部是中国公司。但我有信心,第一名会是特斯拉。(中国商业科技新闻网特约编译金鹿)推荐阅读AI实验室催生强大的“政客”和“民意操纵者” 揭秘DeepSeek“联网搜索”背后的神秘公司马斯克豪赌AI,特斯拉陷入“双重困局” ...

世界上最强大的“政客”和“民意操纵者”,正在人工智能实验中诞生

中国商业科技新闻网《AI未来指北》特约作者 博阳编辑 郑可君近期,中国商业科技新闻网和《人类简史》作者尤瓦尔・赫拉利展开了一场深度对话:对谈尤瓦尔·赫拉利:人类对秩序的渴求先于真相,是互联网和AI控制个人的首要原因在对话中,赫拉利着重探讨了人工智能对个体决策的潜在影响,表达了对技术被少数人掌控的忧虑。然而,最新研究显示,AI的威胁已远超赫拉利的预判。2024年4月发表在arXiv预印本平台的“SocioVerse”研究论文揭示了一个更为严峻的现实:AI技术已突破个体影响的边界,迈入群体操控的新阶段。这项由复旦大学主导、联合上海创新研究院、罗切斯特大学、印第安纳大学以及中国社交媒体平台小红书共同完成的研究,通过构建一个基于1000万真实用户数据的社会模拟系统,展示了AI不仅能够理解和影响单个个体,它还可以操控成千上万的人,甚至预测并潜在地塑造整个社会的集体行为。这种从微观个体到宏观社会的技术跃迁,让赫拉利的担忧显得几乎过于保守——我们面临的风险远比他当时预见的要严重得多。如果说赫拉利担忧的是AI成为精通心理学的个人操纵者,那么“SocioVerse”则表明,AI正在演变为洞悉社会规律的超级架构师——一个能解码社会结构、预判群体动态,并可能改写社会运行逻辑的数字巨灵。这一技术跃迁将AI风险从微观个体层面提升至宏观社会维度,其潜在冲击的深度与广度,远超我们此前的想象,其潜在后果之深远令人战栗。SocioVerse:数字孪生社会背后的神秘面纱SocioVerse意图构建一个前所未有的系统:一个能够模拟和预测真实人类社会行为的完整数字世界。回溯至二十世纪中叶,社会学理论奠基人亨普尔和欧本海默就曾预言:真正的因果解释必须建立在社会现象的可预测性基础上。此后的多年间,尽管计算社会学不断发展,但传统社会模拟技术始终面临根本性局限——它们要么过度简化社会复杂性,要么与现实世界严重脱节,无法捕捉瞬息万变的社会动态、多元群体的行为差异,以及微妙的人际互动机制。SocioVerse的诞生彻底改写了这一局面。这个系统不再是对社会的粗糙模仿,而是一个具备高度保真度的数字镜像。通过整合最前沿的人工智能技术,它实现了对社会系统的全要素建模,包括:动态演化的社会环境具有独特行为模式的个体复杂的社会互动网络微妙的信息传播机制这一突破使得SocioVerse超越了传统社会模拟的范畴,成为首个能够与现实社会保持同步演进的数字孪生体。其建模精度和系统完备性,标志着计算社会学研究达到了前所未有的高度。用1000万个虚拟人,构筑一个流变真实的世界之所以SocioVerse算是能模拟这个社会的项目,是因为它确实建构了一个能“以人类社会的方式运行”的社会模型——一个具备时间性、个体性、情境性、互动性与变迁性的系统。这使它不仅能模拟社会行为,还能模拟社会变迁。在大多数社会学入门课程中,教师总会画一张简单的图:一些点(个体)和连接这些点的线(关系)。但这张图从来没有告诉我们,一个人为什么转发了某条微博、为什么开始焦虑地关注房价,或者,为什么在看到“AI裁员”的新闻时,忽然改变了对技术的态度。这是人的行为不是在真空中产生的,它总是在事件的时间线上、身份的社会结构中、语境的交互场中发酵。社会,不是一堆人,而是一种信息的共振结构。这正是SocioVerse的起点:如果我们要模拟社会,就不能只模拟人,还要模拟信息,及其如何穿透人群,塑造情绪,汇聚成共识或撕裂。于是,他们设计了四个协作的引擎:社会环境引擎、用户引擎、场景引擎、行为引擎。这四者的协作,恰好对应了社会结构中最核心的四个逻辑维度:时间性(事件如何演化)、个体性(谁在被影响)、情境性(在哪种互动中)和互动性(如何相互作用)。第一步,个体维度:从标签到人格的进化SocioVerse的用户引擎可能是它最具人类学雄心的部分。他们从Twitter(X)与小红书上采集了超过1000万个真实用户数据,超过7100万条社交发言。然后,用三个最强LLM(GPT-4o、Claude 3.5、Gemini 1.5)给每一个人打标签。这些标签不光包括我们熟知的人口学标签,比如年龄、性别、种族、地区;在这一层,基本就是传统推荐引擎的极限了。而LLM的语义理解使得这一系统还可以对用户的政治倾向、消费偏好、价值观打标签。除此之外,他们甚至能对你的人格本身做标记,在实验中,他们应用了Big Five人格模型(开放性、责任心、外向性、宜人性、神经质)对智能体做了分类,甚至连他们做表达的语义风格也可以分类模拟,比如它是偏情绪表达,还是喜欢逻辑分析。这使得这一系统中的模拟人Agent具有了过往系统所完全没有的细腻度和真实性。完成这一系列打标后,系统会将标签交由人工评审,再训练成分类器,让整个用户库真正变成一个活的社会人群图谱。这些图谱包含:基础属性:年龄、地域、职业等人口学特征心理特征:大五人格特质(开放性、尽责性等)行为特征:表达风格(如“理性分析型”或“情绪宣泄型”)价值取向:政治立场、消费观念等深层倾向这使得研究者能精准调用特定人群画像,如“技术乐观的95后程序员”或“对AI持怀疑态度的中年主妇”。第二步,时空维度:动态演进的社会剧场如果说社会是一个系统,那它首先是一个时间系统。人们的行为不是在“状态”中生成,而是在“进程”中变化。为了实现社会的时间性变化,在建立完个人后,SocioVerse还建立了一套“社会环境引擎”。它通过实时抓取新闻事件、政策变动、经济指标等数据,构建持续演化的社会背景。以美国大选模拟为例,系统不仅输入候选人政见,还整合了各州失业率等经济数据、社交媒体话题热度、突发公共事件影响,形成了一部24小时更新的“社会纪录片”。第三步,场景维度:情境敏感的行为模拟首先是场景引擎。我们对一个问题的回应,并不是脱离上下文的“意见表达”,而是被放置在某种语境中——餐桌上的谈话和问卷调查、微博发帖和面对面的访谈,是完全不同的体验。SocioVerse就通过场景引擎,去模拟不同行为发生的“结构性环境”。比如当它模拟“选举投票行为”时,就会选择匿名系统反馈。当它模拟“社交平台发言”时,要加入“会被谁看到”“评论如何反馈”的社交反馈机制。而当它模拟“用户接受经济调查”时,需要把问题置于是否信任问卷、是否担心隐私等背景因素中。在“国家经济调查”这一模拟中,系统重建了一个与统计局高度一致的问卷环境——涵盖食品、住房、医疗、交通、教育等八大项,并设置了不同的发放方式和媒介渠道。结果显示,当问卷从“政府官网”发出时,虚拟智能体普遍持“慎重”、“合规”态度。而他们在答题时也更倾向中性回答、谨慎表达负面意见。而同样的话题从“小红书推荐博主”发出时,虚拟智能体则更容易将其当作“社交参与”或“生活方式表达”。也更容易在回答中真实反馈支出痛点、表达焦虑或消费偏见(例如“最近医疗真的太贵了”“房租太高撑不住了”)。这意味着,它确实模拟了信息裹挟的情境。而非仅仅用AI模拟了聊天。第四步,互动维度:信息传播的连锁反应情景造好后,下面就是通路模拟。信息进入通路,然后把“个体”变成“彼此相关的个体”。SocioVerse称这个为行为引擎。这一引擎采用了双轨系统。对于规则清晰的群体性行为,比如投票、选择、点赞等,SocioVerse采用了成熟的传统Agent-Based Modeling(ABM)建模;而对于语言表达、态度生成、情绪反应等复杂互动,则调用大语言模型生成,给予每个Agent其“人格+历史+信息输入+场景位置”,生成其行为。以特朗普发表演讲为例,系统不仅能生成智能体对事件的初始态度,更能模拟其在社交平台的发帖行为、信息传播路径及引发的连锁反应。从意见领袖的率先发声,到普通用户的跟风讨论,再到观点对立引发的舆论极化,每个环节都在算法驱动下层层递进,完整复现现实世界中热点事件从萌芽到爆发的全生命周期。值得注意的是,行为引擎的核心并非简单复刻行为本身,而是构建一个闭环的信息生态系统。在这里,每个智能体的言论都可能经历“传播-误读-再创作-扩散”的循环,如同现实社会中的谣言发酵或热点炒作,让虚拟世界产生与真实社会同步共振的舆论涟漪。虽然这个引擎名为行为引擎,但SocioVerse模拟的不只是行为本身,更是行为被看见、被误读、被引用以及引发反应的信息循环机制。当社会环境引擎注入实时事件、用户引擎定义角色特征、场景引擎设定交互规则、行为引擎激活动态反馈,四大模块共同驱动着SocioVerse的数字社会模型。这个系统不仅能感知时间的流动、识别个体的差异、还原场景的真实,更能捕捉人与人之间微妙的影响链条,最终构建出一个充满生命力的数字孪生社会。惊人的预测能力:三个真实世界模拟的震撼结果单看整套系统的设计,SocioVerse基本上做到了对人作为社会分子,其所受的核心影响因素做了深入毛孔的拆解。也正是因此,SocioVerse展示了相当准确的预测真实世界行为的能力。他们一共进行了三组实验,都相当准确。第一组是美国总统选举预测。研究团队构建了一个包含33万多个虚拟选民的模型。其中每个虚拟选民都具有12个关键人口统计特征。他们使用迭代比例拟合技术确保这些虚拟选民的分布与美国各州的真实人口分布一致。随后,他们设计了一份包含49个问题的详尽调查问卷,涵盖从社会安全到LGBTQ+权利的各种政治议题。结果在使用Qwen2.5-72b模型时,系统在所有州的预测准确率达到了92.2%,而在关键摇摆州的准确率也高达80%。根据现实中美国“赢者通吃”的选举人票分配规则,这意味着AI几乎可以完美预测整个美国总统选举的结果。第二组则是突发新闻反馈分析——在这个场景中,研究者以ChatGPT的发布作为目标事件,尝试预测公众对这一技术突破的反应。他们首先界定了潜在受众群体(对技术感兴趣的小红书用户),然后从用户池中采样了2万个智能体,基于ABC态度模型(情感、行为、认知)设计了一份18个问题的问卷,覆盖公众认知、感知风险、感知收益、信任、公平和公众接受度六个维度。结果AI智能体的反应与实际用户的反应高度一致,甚至在细微的观点分布上都表现出惊人的相似性。GPT-4o模型模拟的结果在KL散度指标上的得分仅为0.196,意味着预测分布与真实分布几乎重合。第三个实验是中国国家经济调查——这一模拟展示了系统在经济行为预测方面的能力。研究团队根据中国国家统计局的方法论,从用户池中采样了1.6万个智能体,涵盖全国31个地区。他们精心设计了一份经济问卷,询问关于食品、服装、住房、日用品、交通通讯、教育娱乐、医疗保健和其他七大类消费的具体支出情况。当模拟结果与官方统计数据比较时,所有测试的AI模型都展现出令人难以置信的准确性,尤其是在发达地区的表现更为突出。Llama3-70b模型在所有消费类别上的均方根误差低至0.026,意味着它能几乎完美地复制中国居民的消费模式。这三个实验说明,SocioVerse确实已经成了一个能够准确模拟和预测大规模社会现象的强大系统。从新闻反应到政策影响,几乎没有任何社会现象能超出其模拟范围。并非虚拟小镇,而是虚拟现实很多人会说这个逻辑和之前的斯坦福小镇没啥区别啊,只是智能体数量扩大了,行为更多集中在信息交互上了。确实,在SocioVerse之前,这类AI智能体社会模拟项目其实已经有过不少了。2023年末的“斯坦福小镇”虚拟社区,这一试验中让25个AI智能体在这个封闭环境中生活和互动。而上一个出圈的实验是Project Sid ,他们把斯坦福小镇拓展到1000人的水平,并且把场景换成了minecraft,那里的智能体居民也逐步形成了社区和选举。但SocioVerse从本质上和这类实验完全不同。斯坦福小镇与真实世界之间存在一道清晰的界限:它是一个完全封闭的虚构环境,所有角色都是人为创建的,没有任何真实人类数据的直接输入。它更像是一个精心设计的互动小说,而非真实社会的镜像。SocioVerse则完全不同。它直接建立在1000万真实人类的行为数据之上,每一个智能体都不是凭空想象的角色,而是基于真实用户的详细档案。虽然研究者声称他们采取了保护用户隐私的措施,如只提取公开帖子内容并过滤异常数据,但这些措施并不能改变一个基本事实:SocioVerse正在从大规模真实人类行为中提取模式,并用这些模式来预测更广泛群体的反应。它不是在一个想象的世界中进行试验,而是在创建一个与我们共同生活的社会世界的“数字孪生”。这种直接与真实世界对接的特性,使SocioVerse成为一种全新类型的社会工具——一个不仅能够观察和分析社会,还能够预测甚至可能影响社会的系统。这不再是学术上的思想实验,而是一种可能对现实世界产生深远影响的技术。AI将社交平台变成“数字牧羊人”过去,当平台拥有了比较粗糙用户数据时,他们用这些数据塑造了推荐算法,进而制造了达成平台利益最大化的信息茧房。而现在,当它拥有一个能够如此准确地预测人类行为的系统时,会有什么能阻止他们将其从预测转向去影响群体的决策?与传统的社会工程或宣传不同,这种新型影响更加精细、更加个性化、也更加难以察觉。它不是通过明显的不实信息操作公众,而是通过微妙地调整真实信息的呈现方式,放大某些方面同时淡化其他方面,以产生预期的心理和行为反应。这就是无声的控制,一根完美的牧羊杖。拥有着AI助力的平台的能力远远超越了传统的个性化推荐,进入了对集体行为和社会偏好的积极塑造领域。如果说信息茧房只是针对个人的最大注意力抽取技术,那SocioVerse就将是对全社会的指挥棒。平台可以随意的指点,而我们则只能在不知觉的情况下随之起舞。这项研究,正是依靠着拥有上亿用户的社交媒体,真实的用户数据才有可能被获取。而有了这套系统。我们在平台上的意见,和呼喊不再会是需求本身。而只不过是系统捕捉到的,可利用以达成它个体目的的信息而已。这无可反击的意志,世界上最强大的“政客”和“民意操纵者”,正在实验中诞生。这可能是AI时代,我们所面对的最坏的可能。推荐阅读对话尤瓦尔·赫拉利:人类对秩序的渴求先于真相 机器人跑马拉松,累到“断腿”的是工程师为DeepSeek提供“联网搜索”的这家公司,把价格打到了Bing的1/3 ...

机器人跑马拉松,累到“断腿”的是工程师

中国商业科技新闻网《AI未来指北》特约作者 小燕编辑 郑可君机器人在跑马拉松,后面跟着一群工程师。4月19日,在北京亦庄举办的首届人形机器人半程马拉松比赛中,20多台人形机器人“缓慢前进”,几十位工程师在后方一路陪跑,他们忙着调算法、换电池、抗干扰。这场马拉松比赛,不仅是为了比速度,更是对人形机器人基础能力的验证——验证它们是否具备长时间、连续、自主的运动能力。为什么要让机器人跑马拉松?因为实验室的完美条件无法模拟现实路况的复杂与不可控。唯有在连续20公里的真实环境中,关节结构、能耗效率、散热能力和运动算法才会被全面暴露,而这正是“人形机器人产业能否落地”的第一道门槛。在此时点,中国商业科技新闻网“具身之路”系列直播邀请了三位长期关注并深度参与机器人产业实践的嘉宾,共同拆解这场“跑出来的能力测试”背后真正的技术焦点与产业价值。● 于浩|联想控股副总裁● 谌威|钛虎机器人产品生态负责人● Nixon|机器人领域资深产品经理、机器人赛事策划者,腾讯新闻创作者(腾讯新闻ID:南山区张震)核心要点:1、为什么人形机器人需要一场马拉松?马拉松不是为了比速度,而是用真实环境做一场“基础运动能力”压测。在长距离、非理想场地中持续运行,是检验人形机器人能否走向现实应用的第一道门槛。2、它暴露了哪些核心技术挑战?一台机器人跑完半马,背后是关节精度、热管理、电源系统、控制算法、通信干扰等问题的全面暴露。这是一场系统工程的极限演练,不只是测“能不能跑”,而是“撑得住多久”。3、跑步能力能否迁移到真实场景?马拉松只是开始。当机器人能完成长时间稳定运动,意味着它初步具备进入安防、巡检、配送等高负载场景的潜力。但真正决定商业化落地的,是“小脑”能力标准化之后,“大脑”能否快速跟上。人形机器人为什么需要一场马拉松?Nixon:我们先聊个轻松的话题——当你们听说“人形机器人跑马拉松”这件事情时,第一反应是什么?是觉得大胆,还是觉得有点离谱?于浩:我当时确实感到惊讶。此前有媒体找我聊过“机器人爬山”的想法,我就觉得难度太高,实施起来很难。没想到不久之后就听说要办“机器人马拉松”。起初,我以为比赛要求机器人全程自主运行,了解后发现,主办方允许使用“遥控”甚至“跟跑”模式,整体门槛并没有想象中那么高。但这也未尝不是件好事。毕竟目前的人形机器人在技术和应用上都还不够成熟,与其把比赛当作竞技,不如看作一个展示平台。不同企业带来了各式各样的机器人,有高有矮、功能各异,不仅可以展示优势,也能暴露短板,是行业互相观摩、交流的好机会。这就是我们常说的“PDCA”循环——Plan、Do、Check、Action(即计划、执行、检查、处理的闭环管理流程)。通过实践暴露问题,再进行优化,是一个很好的闭环过程。谌威:这是一个行业对外展示阶段性成果的机会。就像赛车一样,不是只靠一台车,而是背后有完整的保障系统支撑。人形机器人要“跑起来”,背后也同样需要一个协调配合的团队。这次马拉松的意义,不在于比谁跑得快,而在于有没有勇气迈出这一步。从参赛方式来看,目前“遥控”占了主流。因为“跟跑”模式对环境要求比较高,稳定性也不太好。一般需要一个领跑员与机器人保持三到五米的距离,身上贴有二维码或其他识别标识,机器人通过视觉追踪技术实现跟随。这种方式对识别精度和路径控制要求都很高,容错空间非常小。Nixon:说到底,这其实是一项系统工程。即便两台机器人外形完全一致,它们的摩擦力、限速设定、调校精度等细节也可能不一样,结果跑出来的轨迹也可能完全不同。谌威:没错。每台机器人都需要专人调试——哪怕只是两条腿的摩擦力不一致,都有可能影响行走路径和整体稳定性。现在的机器人,远不是“即插即用”的设备,而是一个高度复杂的系统集成体。所以这也十分费人力,光是准备一台参赛机器人,就有二三十人参与,涉及算法开发、硬件调试、现场运维等多个环节。于浩:所以大家担心机器人“抢饭碗”,其实为时尚早。就现在来看,一台机器人背后,可能还要靠几十个人共同推动它前进。我之前也开玩笑说,跑一场机器人马拉松,至少得有人跟着背电池、做维修。这不仅没有取代人类的工作,反而还创造了一些新工作岗位。谌威:不少机器人公司光现场执行的团队,就有三个人。一个负责操作控制,一个处理突发情况,另一个负责后勤保障,跟着保障车一起行动。车上会装有备用电池、电源、支架等设备,确保机器人在遇到问题时能快速应对。于浩:就像足球比赛中有医疗团队随时待命,这边也是一样,算是“机器人马拉松的医疗车”。谌威:是的。而且主办方也设置了七个补给站,每隔三公里提供电池更换和必要的物资,保障体系还是比较完备的。Nixon:我也特别想强调这一点。这次是半程马拉松,不是全马。主办方鼓励企业用一台机器人跑完整程,但中途换机器人、换电池等操作都是被允许的,只要在时间限制内完成即可。另外,这次的关门时间也比人类半马延长了半小时,就是考虑到机器人整体速度会更慢。因此,这场比赛考验的并不是谁跑得最快,而是谁能稳定、安全地坚持到终点。谌威:对,这次比赛最特别的一点是所有参赛企业都在统一标准下诚实面对自己的技术状态,不再像过去那样通过剪辑展示“机器人陪我一天”的表演场景。对于公众来说,这次是非常难得的真实展示,也是一种科学普及。一场长跑,能否证明人形机器人核心竞争力?Nixon:接下来我们深入聊一聊。从机电系统、控制算法等角度出发,机器人要完成一场马拉松,核心挑战究竟有哪些?谌威:从系统层面看,最核心的挑战之一是关节设计,整个行业目前大致分为三种方案:谐波关节、行星关节和直线关节(行星滚柱丝杠)。它们在减速器结构上存在差异,减速器的作用是将电机的高速、低扭矩转换为适合关节运动的低速、高扭矩。减速比的不同,会直接影响机器人输出的效率和响应能力。打个比方,就像骑自行车换挡,不同挡位下,踩踏的感觉完全不同。比如一些可以跳舞、鲤鱼打挺的机器人,多采用高响应、高效率的行星关节,整机高度在1.3米左右,重心低,平衡性好。于浩:关节结构、算法能力和身高体型这些要素,都会共同影响机器人的运动表现。谌威:没错。除了结构,还有一个关键挑战是散热。运动强度大的机器人电流大,发热量高,甚至可能是普通方案的三到四倍。必须解决热管理问题,才能保证长时间稳定运行。谐波关节方案虽然功率不算太高,但可以持续运行一到两个小时,适合长时间任务。Nixon:那如果热控没有问题,但速度不够,是不是就只能慢慢地“走”?谌威:是的,热控稳固的机器人,可能牺牲了速度,表现更像是稳定的“行走”而非“奔跑”。而且在软件算法层面,现实环境和实验室差距很大。像亦庄这次的赛道,地面并不平整,中间略高、两侧稍低,还可能出现减速带和碎石。这种复杂地形对算法的鲁棒性要求很高——机器人必须在受到干扰时依然能保持平衡,否则很容易偏移甚至摔倒。Nixon:所以行业大致可以分为两类机器人:一类是“等人高”的大个子,虽然跑得慢,但稳定、持久,适合长距离任务;另一类是身高约一米的小型机器人,动作快、灵活,但续航较弱,适合表演型场景?谌威:可以这么分。大体型机器人更强调是否能减少进补给站、稳定持续地运行;而小型机器人则更注重速度和动作表现。Nixon:那于浩老师,从投资者的角度来看,如果我们把“马拉松”作为一个能力背书,它究竟能代表哪些技术水平?于浩:我觉得这要看具体的比赛模式。如果是遥控模式,考察的主要是硬件层面的能力,比如关节、电机、能耗、散热等;如果是全自主模式,那就需要机器人具备环境感知、路径规划、动作决策等能力,难度更高;跟跑模式则是另外一种,需要机器人能够准确跟随、快速响应前方目标。所以三种模式的能力要求是有本质区别的。但无论是哪种模式,关节强度、热控能力、系统鲁棒性这些底层指标是共通的,特别是在马拉松这种长距离场景中,更容易暴露出系统级的问题。就像足球队比赛前要踩场一样,机器人也需要提前适应实际场地。现实中可能遇到各种不可控因素,比如突发大风、其他机器人摔倒等,这些情况都需要算法层面做出快速判断与调整。Nixon:确实。如果机器人遇上坡道或强风,要如何保持平衡?于浩:这要看是否是自主控制。如果是遥控,那就靠人来判断环境并手动干预;如果是自主模式,那就需要依靠机器人大脑中的感知系统实时做决策。谌威:机器人在行走、爬坡或步态恢复时,所有关节模组的数据和其他传感器数据,都会在控制芯片里建模,它会实时的调整参数,在一秒钟内对机器人身上电机发近千次次指令,来维持整个机器人系统平衡。Nixon:也就是说,即便是遥控模式,机器人仍然需要一定的“自我判断”能力,而遥控更多只是起到导航的作用?谌威:可以这么理解。自动驾驶依赖高清地图导航,而机器人当前还做不到完全等效的路径规划。在保持平衡这件事上,最终靠的还是机器人自身的大脑去实时判断和决策。不同厂商在模型训练和算法实现上存在很大差异。有的机器人专门训练过上下坡、台阶,有的只能应对平地。我们钛虎以硬件为主,也在积极引入各类算法和开源框架,与我们的产品融合,提升适应能力。Nixon:明白。那除了运动控制和环境适应之外,在户外“开放式马拉松”中,还有哪些关键瓶颈需要突破?谌威:挑战还挺多。比如结构稳定性——机器人在长时间高频运动中,会不断承受震动和冲击。结构件如果设计不合理,很容易出现松动甚至损坏,尤其是在金属材料反复受力的情况下,会产生“金属疲劳”,导致强度下降甚至断裂。这在长距离、高强度的马拉松中尤其需要重视。另一个关键问题是换电。实验室里常用的是直连电源或标准电池包,但户外比赛要求快速换电,最好是热插拔结构。有些厂商已经做了这方面的设计,比如主控电源有备用供电模块,主要电池则像无人机一样,可以“一插即用”,整个更换过程甚至不需要一分钟。于浩:我们常说“热插拔”,其实就是在不中断机器运行的情况下更换电池。这个概念可能有些观众还不太熟悉,简单解释一下是很有必要的。谌威:对,就是在不关机的状态下完成电池更换,效率更高,也更安全。Nixon:明白了。刚才你们还提到一个“金属疲劳”问题,通过一些资料,我们确实看到不少相关的损伤案例。于浩:金属疲劳是个重要因素,另外还有一个容易被忽略的问题是通信干扰。你想象一下,现场有那么多机器人同时运行,全靠无线信号连接,信号之间非常容易互相干扰。谌威:尤其在赛道周边有地铁、人群密集、手机信号重叠的地方,干扰会更加明显。于浩:机器人本身带着大量电机,电磁干扰强。现在又缺乏统一的赛事标准,不同厂商的通信模块可能都工作在相同频段,这就容易造成系统级别的干扰风险。还有一点值得强调,现在很多人对人形机器人抱有很高的期望,但实际上它的难度甚至超过了自动驾驶。汽车只需要在二维平面上控制,而人形机器人采用双足运动,涉及平衡保持、重心变化、动态反馈等一系列复杂变量。因此,我们应当对这项技术保持足够的理解和耐心。Nixon:确实。比如有机器人公司公开表示,他们在测试中出现过脚踝结构断裂的问题。有的团队尝试让机器人“穿鞋”,据说这样能显著提升续航和跑速。大家如果有机会到现场,可以留意一下“穿鞋”和“不穿鞋”之间的差异。谌威:人形机器人如果金属脚直接着地,震动会非常强烈。穿鞋确实可以起到一定的减震作用。于浩:但我有一个疑问:穿鞋是否会引入更多不确定性?比如鞋底摩擦系数、结构稳定性这些因素,会不会反而带来新的问题?谌威:目前大多数机器人的“脚底”结构,确实还不具备像人类鞋子那样的摩擦力和人体工学属性。穿鞋其实是借助人类长期演化出来的成熟减震工具。有一些机器人公司也在尝试开发橡胶脚垫版本,希望在减震性能和结构稳定性之间取得平衡。于浩:我理解了。从工程角度来看,结构越复杂,变量就越多。能否通过更简洁的设计实现同样的效果,也值得探索。Nixon:那关节在长时间运动下,散热问题怎么解决?比如跑完整个21公里,一个关节可能要连续运动十几万次。谌威:目前大多数机器人主要依赖金属外壳进行被动散热。从技术上,大家的核心思路是从电机本体出发解决发热问题,比如通过优化绕线方式、提升减速器效率、改进金属结构的导热性等手段来降低热量积聚。最终目标是提高关节的“扭矩密度”——也就是在更轻的结构下,实现更高输出的同时降低发热与电流负载。此外,谐波减速器相较于传统的行星减速器,它在散热效率和整体性能上具备优势。Nixon:现在很多研究报告也在强调,谐波减速器是人形机器人中的核心零部件。于浩:没错。机器人运动和汽车不一样,我们常说“加速容易,减速难”。特别是在机器人跑步减速的过程中,控制算法尤为关键。这个阶段往往需要双脚同时发力,平衡和协调性都处于最不稳定的状态。Nixon:是的,我刚才想表达的是,人形机器人在减速阶段,需要双脚同步发力,而在加速时主要依赖单脚发力。这种“双足协同”的控制逻辑,对系统的协调性和控制算法都提出了更高的要求,可能就像人类双手协同操作复杂任务一样。那么,下肢在减速阶段的这种配合,会不会在算法层面带来额外挑战?于浩:确实如此。减速阶段最关键的是保持平衡,同时还要处理双脚间的协调配合,算法的难度会更高。谌威:如果要从算法层面进行细化讲解,可能需要专门的算法团队来展开。目前行业主流的方法是使用“统一框架+自我学习”的策略来解决,比如通过强化学习,把加速、减速、不同地形等各种状态都通过训练覆盖进去。所以并不是把每个动作用显式规则写死,而是通过大量数据训练,把这些状态“跑”出来,让机器人逐渐学会应对各种复杂情形。Nixon:明白了。也就是说,像前进、减速、转弯这些状态切换,并不是靠具体规则一步步控制,而是作为整体被打包在强化学习模型中,让系统在运行中自己“学会”。谌威:对。靠的就是大量训练和数据积累,去不断优化模型,让机器人在不同状态下都能做出合理反应。Nixon:既然是比谁跑得快,为什么不用机器狗?四足机器人目前运动能力更强,有的甚至结合了轮腿结构,效率和速度都更优。那为什么这场马拉松一定要用“人形”机器人来跑?这背后的意义是什么?于浩:我们最近其实也讨论过这个问题——为什么一定要“人形”?我认为这和人类对机器人的长期想象有关。从小时候看《铁臂阿童木》开始,我们心中“机器人”的原型就是有手有脚、像人一样的存在。这个“人形”形态像是一种文化符号,也是一种心理投射。就像中国神话中女娲造人,是用黄土捏出人的样子。人形机器人在某种程度上承载了我们最早对工具的想象——它要像我们、替代我们、进入我们原本的位置。从实用角度看,人形也确实更适合进入人类环境中。不管是爬楼梯、开门、扶电梯还是坐办公桌,人形结构都能直接适配现有的社会环境。而机器狗或其他异形结构则需要重新设计空间和工具,整体改造成本很高。所以说,人形是一种“通用性更强的替代形态”,哪怕它在效率上不是最优的选择。Nixon:谌总,你作为做关节的,从产品落地的角度来看,人形和机器狗的区别在哪?谌威:首先,这次是马拉松比赛,而马拉松本就是人类的竞技项目,人形机器人参与在形式上是合情合理的。从功能上讲,我总结了几点:第一,这个世界是为人类设计的,人形机器人在空间适应性方面天然具有优势。第二,目前的工具和界面大多服务于人的身体结构,比如把手、按钮、工具的大小和高度都基于人设计,人形机器人可以无缝对接,无需额外改造。第三,统一的形态有利于规模化生产。就像汽车的“四轮”已经成为工业标准,“双足+两臂”的人形也是一种可以标准化的工业形态,有助于复制和降本。第四点很关键,是关于数据迁移。人类的行为数据可以直接用于训练人形机器人,而要把这些数据迁移到机器狗等异形结构上,训练成本更高,转化效率也更低。而且,这次比赛不只是为了“跑”,它本质上是在测试人形机器人的“基础身体能力”。我记得去年在世界人工智能大会上,全国范围内真正能“走起来”的机器人其实并不多,大部分还需要吊装辅助。但这次不同,大家的机器人都动起来、走起来了。说明在系统稳定性、关节性能、控制算法等方面,行业已经逐步迈过了“能动”的门槛。马拉松是一种非常适合做“压力测试”的场景,就像人类体检一样,你得先通过基础体能测试,才能进入更高阶任务。之后我们可能会看到更多不同体型的机器人登场,不止是标准身高的一米七,也许两米高的大个子也能参与其中。这说明整个行业正在向前迈出一大步。Nixon:刚才你提到数据训练,这一点确实很关键。我们很难让一只真实的狗去为机器狗做标准示范,但人类不同。人类在各类真实工作场景中的行为数据,可以被直接采集和结构化,用作人形机器人学习的输入。训练效果的关键,只在于数据的时间跨度和规模大小。谌威:是的,人类的数据天然具有高度结构化的特点,非常适合迁移到人形机器人系统中。这也是人形形态更具“学习效率”的一个重要原因。人形机器人参与马拉松是否具备实际应用的迁移价值?Nixon:我们进入今天的最后一个部分。现在我们看到,有的机器人在马拉松中展现出较强的耐力,有的则更突出动力性能。你们怎么看,这些能力是否可能迁移到实际应用场景?比如安防、配送等需要长时间运行、路况复杂的环境,是否可以借此建立起更强的工程能力?谌威:我认为答案是肯定的。马拉松对机器人而言,其实是一种基础能力测试。而未来的真实应用场景,对它的要求只会更高。比如在工厂中,机器人可能需要连续运行八小时以上,目前主流人形机器人的续航能力通常只有一到两个小时。再如电网巡检、山区作业这类任务,地形复杂,对机器人保持动态平衡的要求更高。还有像核工业这种特殊场景,还涉及强电磁干扰等问题,对系统稳定性构成巨大挑战。因此,未来的机器人形态一定是高度定制化的。我们提供的是一套人形平台方案,但真正落地时,需要根据不同行业的具体需求进行二次开发。这也是我们强调“从本体关节出发”构建可扩展系统的原因。于浩:我非常认同。无论这次比赛中体现出的是技术优势,还是暴露的问题,最终都会反哺研发工作。比如关节疲劳、电源管理、散热策略等,都是下一阶段可以重点优化的方向。从本质上看,马拉松是一个任务目标单一、交互行为较少的场景,但它为我们提供了一个高强度、长周期的“能力压测”窗口,对产品稳定性和算法鲁棒性来说,是一个非常有价值的检验平台。未来的机器人形态不会只有人形一种,也不一定必须依靠电池供能。在工业场景中,完全可以使用外接电源解决续航问题;甚至有些应用场景并不需要下半身,只有上肢系统也可以独立完成任务。谌威:我们确实也有客户只采购双臂系统,不需要完整的人形平台。于浩:关键在于找到“最合适的机器人形态”来完成“最合适的任务”。扫地机器人就是一个非常成功的例子,轮式结构稳定、高效,反而更适合它的功能。如果把它做成人形,那就成了画蛇添足。我以前在高校还见过一台刀削面机器人,只有两只机械臂,没有下半身,但它可以连续、稳定地完成任务。这就是典型的“形态合适”。所以我们办这场马拉松,并不是为了验证“机器人能不能跑完”,而是借助这个过程探索:哪些能力具备迁移价值、哪些技术可以跨场景集成。Nixon:我理解,现在大家对人形机器人的关注,很大一部分来自于它们的“运动能力”终于达到了某个门槛。虽然它们目前还不能胜任复杂的感知或服务类任务,但仅凭“能走、能跑、能保持稳定”,就已经能够登上春晚、出现在展会等舞台。而马拉松,把这个“运动能力”进一步推向极限——要求它长时间运行、高速切换状态、结构耐久可靠。我设想,未来是不是可以按照体型、驱动结构设立分组,比如设1米2和1米7两个身高等级。这样厂商就会围绕这些标准化目标进行专项优化,就像汽车拉力赛那样,推动行业建立分级标准、带动上下游配套。比如在这次比赛中,最大挑战可能不是算法,而是底层机电系统。如果能提升能量转化效率,那意味着机器人可以跑得更远、工作更久。谌威:我补充一点。人形机器人在短期内确实更像是一个技术探索方向,它推动的是整个行业的“能力上限”。但在这个过程中,很多关键模块会向下沉淀。举个例子,过去在工业自动化场景中,人类仍需介入处理那些非结构化的复杂任务。但当我们把人形机器人路径中发展出的智能模块,比如视觉识别、多模态控制等,移植到传统机械臂系统中,它立刻就能胜任更多产品、更复杂的任务。所以人形机器人的意义,并不仅仅是要“通用替代人类”,而在于它撬动了整条产业链对“复杂智能”的重新构建。从单臂到双臂的演进,不只是提升了操作的自由度,也拓展了任务的复杂度。正如于总所说,人形并不一定是“双足+双臂”的完整形态,“双臂优先”的构型在很多实际场景中也非常有价值。Nixon:未来我们是不是可以增加一些新测试项目,比如评估操作能力?让机器人在封闭空间里完成如洗碗、做饭等需要感知和精细动作配合的任务。于浩:我看到这次已经设有“人气奖”这种软性评估指标。未来也许可以考虑引入“互动性”测试,比如拟人面板、交互逻辑等设计,让机器人通过更有表现力的形象与观众建立连接。这也体现了人机关系的一种演化趋势。Nixon:那我们最后再讨论一个现实问题。今天参加比赛的企业中,有些表现很出色。在投资人眼中,这些“领先者”是否具有真正的成长性?它们的商业模式是否已经具备清晰路径?于总,你怎么看?于浩:这是一个非常现实且重要的问题。我们把这次马拉松当作一次“技术嘉年华”,是希望让更多人直观地理解机器人行业的发展现状。但回到投资逻辑,最终决定一家企业能否走得长远的,仍然是商业模式是否成立——也就是技术是否能与实际场景对接,能否形成闭环。哪怕技术再先进,如果没有合适的落地场景,也难以构建起可持续的商业循环。中国的优势就在于产业基础完善、应用场景丰富。只要能找到真实的需求侧,就有机会形成“技术—应用—成本”三位一体的正向生态。从控制论的角度来看,这本质上是一个“正反馈回路”——成功的应用带动技术成熟,成熟的技术进一步提升应用效率。大模型的火爆,就是这种“涌现机制”的典型案例。我认为在机器人这个赛道上,“应用落地”仍是主线。投资人、研发人员、商业团队三方必须紧密配合,找到合适的场景和成本结构,整个行业才能走向成熟。Nixon:确实。商业模式从来不是一开始就明确的。人形机器人刚能跳舞的时候,没人想到它能登上春晚、成了舞台主角。这就是应用的自然演化。比如在国外,还有人提出“养老机器人+保险服务”的组合模式。包括政策、法律、支付体系等各个环节,都需要随着产业进展逐步构建。谌威:从我们产业内的理解出发,机器人系统可以被拆分为三层:第一层是硬件本体,第二层是“小脑”——也就是控制算法,第三层是“大脑”——任务规划与决策系统。这场马拉松主要测试的是前两者:本体和小脑能力。在未来一到两年内,小脑能力有望趋于标准化,核心的行走、跳跃、避障等功能将不再构成差异化竞争点。到那时,真正拉开差距的,是硬件性能、制造成本和精度控制。而能否规模化落地,最终还是要看“大脑”这一层能否建立起来。目前大脑系统正处于快速进化阶段。比如Figure公司利用大模型能力推动系统迭代,仅一年估值就上涨了15倍,达到300亿元人民币。英伟达也刚刚开源了类似的整套智能架构,这意味着行业的门槛正在快速被拉平,国内团队有机会在几乎同一起跑线上参与竞争。我们判断,在未来1到2年里,机器人大脑将迎来一轮飞速提升期。即使是在过渡阶段,也可以采用“传统视觉+轻量规划+任务调度”的组合策略,先落地一些实际应用,如商超巡检、药房配送、安防巡逻等,很多国内团队已经开始部署。同时,借助数据训练与模仿学习,也有望在重复性高的场景中实现局部智能能力的实际应用。Nixon:谌威刚才这段关于“从小脑到大脑”的回应,也为我们的讨论做了一个很好的收束。总结一下,我们的判断是:马拉松可以帮助行业建立起“基本运动能力”的标准,而当“小脑”趋同之后,下一阶段的比拼就将在“大脑”与场景适配之间展开。(如需交流欢迎加作者微信:aiyukuailetongzai ,烦请备注公司+职务)推荐阅读:昆仲资本姚海波:2025年,机器人赛道将淘汰一批“机会主义者”追梦的人形机器人,遇上“精算师”朱啸虎站在黄仁勋身边的机器人,正进入ChatGPT时刻? ...

为DeepSeek提供“联网搜索”功能的这家公司,把价格打到了Bing的1/3

中国商业科技新闻网《AI未来指北》特约作者 晓静编辑 郑可君在当下所有通用AI对话产品的界面上,"联网搜索"已成为标配功能。这个看似简单的按钮背后,隐藏着大模型连接现实世界的密钥——没有实时信息获取能力,再强大的AI模型也只能是知识停留在训练截止日的"数字化石"。鲜为人知的是,目前国内超过60%的AI应用,包括DeepSeek的C端应用,联网搜索能力是通过集成博查AI的Search API实现的。大模型需要通过这类API,才能够动态获取最新信息,并输出给用户。AI搜索和传统搜索在入口端的界面上非常相似,底层技术和最终返回给用户的体验却截然不同。图:AI搜索界面图:传统搜索界面这也引发了行业热议:AI搜索是否会取代传统搜索?这个问题的背后,其实是一系列更系统庞杂的问题:1、AI搜索和传统搜索的技术基因是否完全相同?2、AI搜索是否能够建立起新的护城河?3、AI搜索,蚕食的是传统搜索的市场份额吗?4、从SEO到GEO,企业如何调整搜索优化策略?5、当下的AI搜索,究竟有哪些产品形态,还有哪些难解的问题?在DeepSeek爆火之前,博查AI就已为2000家企业提供实时联网搜索能力。带着以上这些问题,中国商业科技新闻网与博查AI CEO刘勋进行了一次深度对话。AI搜索底层技术逻辑彻底改变了吗?据刘勋介绍,春节期间,Deepseek流量暴增,经过多轮沟通和筛选,最终选择了博查去提供高并发的AI搜索。刘勋表示,DeepSeek在选择合作方时,主要考量以下这四点:能否应对高并发需求?产品质量是否稳定?数据引用是否合规?    价格是否合理?这些也是搜索技术公司需要构建的核心竞争力。从技术架构上来看,AI搜索引擎与传统搜索引擎从技术到产品均存在着根本性差异,刘勋解释道:“AI搜索通常分为两个阶段:检索(Retrieval)和生成(Generation)。在检索阶段,AI搜索仍沿用传统搜索的爬虫体系,但后续处理方式截然不同。最大的区别在于,AI搜索引擎收集到了数据之后,是如何建立索引、如何让用户搜索到(排序)的。不同于传统搜索引擎,AI搜索会进行向量和关键词双索引,通过向量关联,直接匹配用户意图,然后通过关键字搜索解决部分名词的特别匹配的需求,之后对多路召回的结果进行语义排序,在这一层中搜索引擎会对信息源的权威性、原创性、逻辑性进行评分,并增加内容源的排序权重分。例如,学术论文、权威机构网站的内容权重更高,低质量或AI生成的内容被判定为“噪声”而过滤。然后是生成阶段,搜索结果经过基于transformer架构的语义重排后,交给大模型进行二次筛选和语言重组,由AI应用返回给用户。”因此,AI应用呈现给用户的是经过整理、逻辑清晰、没有广告的答案,而非传统搜索应用返回的有广告混杂、准确率低的内容列表。但AI搜索并非端到端服务。刘勋强调:“博查AI的Search API仅提供中间过程,最终结果输出由大模型完成。”图:传统搜索的工作流程图 (AI绘制)图:AI搜索的工作流程图(AI绘制)从这整个过程来看,博查AI仅仅是AI产品的链条中的一环——“搜索能力”的技术提供方。那么,这一看似细分的环节,技术护城河何在?市场空间又是否足够?刘勋指出,AI搜索的核心是 “数据+模型+算力” :需快速从多源数据(网页、数据库、开放知识库)提取信息,并有足够多的内容可做;通过自研的Transformer重排模型,让排序更准确,并让输出结果更适合大模型使用;通过技术架构的优化,让搜索引擎可以支持超高并发,实现超大规模数据库的检索,把搜索结果的反应控制在1s以内,毫秒级别。这些技术积累构成了护城河。但问题在于:如此垂直的赛道,是否会被大客户“吃掉”?巨头会“吃掉”搜索技术提供方吗?博查AI的客户可分为四类:第一类是大模型公司;第二类是AI智能体开发平台;第三类是云厂商;第四类是AI应用企业。刘勋称,目前国内约60%的AI应用底层联网搜索由博查AI提供。尽管大模型公司和云厂商有能力自研搜索技术,但相比核心大模型业务,搜索的人力成本高、工程量大,自研并非当下的最优选择。“站在整个产业的角度来看,大厂及头部的创业公司,目前还在集中精力提升大模型的能力,在未来二三十年保持竞争力。社会及资本对这些公司的期待是做出能力超强的人工智能,而不是搜索功能的商业化。”刘勋解释道。AI搜索的能力,更像是大模型连接外部世界的外脑,所必备的技术模块,但并不是核心。因此,找合作方,是性价比更高的选择。而对C端AI应用公司而言,自研成本过高。根据刘勋透露,博查AI的成本一部分是与AI搜索相关的技术研发,比如搜索模型等,另外一部分就是支付给云厂商的算力成本。像博查AI这样的专注AI搜索技术公司,集中了各类客户的需求,博查AI能以规模优势压低算力成本。根据博查官方统计,截至2025年3月,博查Search API日均调用量为3000万次。而博查最大的竞争对手——来自美国的Bing,价格是15美元/千次,单次搜索的成本超过了一毛钱。博查AI的价格仅为Bing的1/3。如果开启联网搜索,相较于不开搜素功能,消耗的推理算力要高一倍。换句话说:“用户每进行一次大模型的联网搜索,联网搜索过程差不多占据了推理成本的一半。”价格优势之外,博查AI还强调数据合规性:“博查服务的大多数是国内B端用户,对于数据合规性的要求很高,在收集、处理、存储、共享和使用数据时,都必须遵守相关法律法规。Bing无法保证数据不出海,数据合规性也不能保证完全和国内法规对齐,这对国内企业是潜在风险。”传统搜索“势微”但AI搜索应用未成生成式AI的爆发为AI搜索带来巨大需求,但传统搜索面临一个灵魂拷问:竞价排名广告的商业模式是否会被颠覆?刘勋认为AI搜索目前暂时无法代替传统搜索,但是会影响传统搜索的商业模式。如上文中所说,AI搜索的底层逻辑完全改变了,即使用户问同样的问题,问不同搜索产品,也会得出不一样的结果。这就意味着,传统搜索的核心商业模式,企业客户可以靠关键字密度、链接权重、页面结构等技术手段影响网页位置,获得更高的竞价排名,不会再像从前那样可控、有效。那么,传统的SEO策略完全失效了吗?如果AI搜索产品直接接入传统搜索引擎API的话,SEO还是会有效果;但是如果越来越多的AI搜索产品采用新一代的AI搜索引擎,SEO的作用将会逐渐下降。“从技术底层来看,新一代搜索引擎架构可以原生支持IndexNow,用户发布的内容可以发布后直接push到博查,秒级进入索引库,优质内容可以快速被分发到AI应用中,不再像传统搜索引擎那样有漫长的等待收录过程。基于这种新的技术架构,可以看到GEO(AI搜索优化)相较于SEO(传统搜索优化)要更加注重内容的与用户问题的语义相关性。因此企业做GEO,提高内容的质量就成了必要的手段。新一代搜索引擎将不再是广告竞价排名机制来破坏用户体验,更有可能是通过优质内容获得曝光度。企业的GEO策略需要从“关键词优化”转向“知识库建设”,可以构建高质量、结构化、多模态的知识库(如技术白皮书、案例研究),去提升推广内容被模型引用的概率。”简单来说,AI搜索引擎,从源头上就需要“好内容”,而“好内容”能获得更多的推荐。刘勋甚至提出了一个看法,跟自媒体时代的内容逻辑相似,企业如果能够提供好内容,那么在AI搜索时代,不需要花钱获得曝光,甚至可能能够赚到钱。“其实归根到底大家需要的都是高质量的答案。”这是新的GEO逻辑。那么,如果GEO的需求已经开始存在,做AI搜索应用,是否是一片蓝海赛道?刘勋的观点是:“单纯做AI搜索并非好赛道。用户需要的是无广告的谷歌和强总结能力的ChatGPT,而非AI搜索这种中间态产品。”目前AI搜索的主要形态包括:对话式搜索引擎(如Perplexity AI)传统搜索+AI(如百度文心一言、微软Bing AI)垂直领域搜索(金融、医疗等)深度搜索/Agent类产品(如OpenAI的Deep Research)带联网功能的大模型产品(如DeepSeek)刘勋所说的“AI搜索类产品”,主要指的是ToC的对话式搜索引擎,以对话形式提供搜索结果和答案,支持多轮交互和上下文理解。从用户端交互界面来看,基本和DeepSeek、ChatGPT等大模型产品没有太大的区别。但是,这类公司通常不自研大模型,而是仅提供应用产品,比如说Perplxity AI。但是,这类AI搜索产品找到了PMF吗?刘勋的答案是:“还没有。”研发成本高、算力成本高,而GEO的可控性还在研发中,还无法达到SEO的明显效果,这就意味着,GEO是否能够延续SEO的商业模式也还是问号。所以这类公司并没有找到清晰的盈利模式。那么,传统的SEO巨头,是否能够转型成为新的GEO巨头?刘勋认为,传统搜索公司受制于广告收入,难以彻底转型,“巨头不能自己革自己的命,1000个用户用了AI搜索,是不是意味着广告DAU就少了1000个?他们一般自己会陷于转型与否的艰难抉择中。”关于AGI的“乌托邦”愿景但是,刘勋强调,博查AI的竞争对手并非类似于Perplexity的AI搜索应用。Perplexity是为“人”提供AI搜索,而博查AI是为AI提供搜索能力。目前,博查AI在这条赛道上,最大的竞争对手是Bing,创业公司并不多。被问及原因,刘勋回答道:“创业门槛还是挺高的,启动资金最少2000万美金,而且需要有很强的技术积累,比如我10年前就做过搜索创业。在目前的融资环境下,我们团队是用自有资金创业的。”关于未来竞争,刘勋最担心突然遇到恶性价格战,“像当年滴滴和快的的大战,还有百亿补贴的对战,很多时候小公司死掉了并不是因为它的技术不行,而是因为在运营和销售上出了问题,把自己的成本拉得(很高)。因为大公司试错的成本和资金资源都很多。”“因此,我们希望能够早早地干到免费。这样某种程度上也意味着‘无利可图’,可以避免恶性竞争出现。”技术领先,与通过研发能力获得的价格优势是刘勋认为的护城河。那么免费之后,博查AI还有什么商业模式呢?刘勋的回答很出乎意料:“博查AI创始团队的理想是希望AGI早一点到来,但是Bing能卖到15美元/千次,不光国内用户用不起,海外用户也用不起。AI搜索是大模型连接现实世界的基础设施,要想实现AGI,这个成本必须降下来。”这是一个乌托邦式的目标:当大模型无法连接世界的时候,普惠地做AGI的世界知识搜索引擎。在交谈中,刘勋也不止一次提到:“这个小小的联网按钮,是大模型连接现实世界的关键环节,未来与国外竞争时,不能缺失这一环。中国需要完全自研的AI搜索引擎。”如今,随着大模型的迭代,也解锁了人工智能体(Agent功能),AI搜索可以通过实时知识检索与推理优化,使Agent能够高效应对动态任务、获取信息并做出决策,同时在深度研究领域加速数据分析与科学发现,成为AI帮助人类解决复杂任务的关键技术之一。这也是AI Search的又一个增长曲线。在AI时代,搜索不再仅是搜索——它是大模型的实时外接大脑,也是智能决策的基础设施。推荐阅读:《AI未来指北》系列对话尤瓦尔·赫拉利:人类对秩序的渴求先于真相,是互联网和AI控制个人的首要原因智谱AI CEO张鹏:当下被忽略的大模型“反共识”追梦的人形机器人,遇上“精算师”朱啸虎 ...

Recent articles