人均股票奖励500万,寒武纪这个“印钞机”,值不值6000亿?
文丨苏扬编辑丨郑可君“我一个朋友,今年炒寒武纪750万->1500万。”伴随股价持续上涨,有关寒武纪的讨论在过去一个月内从未停止,“我有一个朋友”的故事也开始在群聊、朋友圈和社交媒体上频繁出现。我有一个“股神”朋友系列自7月7日阶段性触底至553.98元/股,到8月28日收盘涨至1587.91元/股,寒武纪股价在一个多月时间内涨幅超过186%,市值超过6600亿元。消息面上,“英伟达H20销售重启遇阻”、“DeepSeek暗示将对国产芯片深度支持”这些无不推动寒武纪市值逐级攀升,从4000亿、5000亿到6000亿。在这一过程中,寒武纪也交出了一份“漂亮”的半年报——2025年上半年营收28.81亿元,同比增长4347.82% ,扣非净利润9.13亿元,较上年同期均实现扭亏为盈。中美AI芯片企业核心数据,基于公开资料整理,仅供参考,市值截至北京时间28日收盘(美股周三收盘)01 今年冲刺70亿营收?2025年上半年,寒武纪营收和利润均大幅增长,其中营收28.81亿元,同比增长4347%,扣非净利润为9.13亿元,去年同期为-6.09亿元。按季度拆分,一季度营收11.11亿元,二季度营收为17.69亿元,环比增长59.19%;前两个季度的扣非净利润分别为2.76亿元和6.37亿元,环比增长138.8%。寒武纪连续两个季度营收保持增长应如何理解?一方面,大模型技术发展与产业落地进程加速,驱动需求增加,另一方面则是因为英伟达无货可卖——受出口管制政策的限制,自4月份H20芯片禁运之后,市场供给缺口为寒武纪的营收增长提供了客观条件。不过,采购英伟达和采购国产芯片,并不是非黑即白的关系。受整个出口管制环境的影响,在H20正常销售的2024年,国内大厂也都在布局“二供”以应对海外产品彻底断供的风险。对于寒武纪来说,与字节组队已经成为业内公开的秘密,关键就在于字节下了多少订单。寒武纪的这一轮上涨始于2024年2月,当时其股价不到100元,整个2024年接近以每股700元的价格收官,股价与业绩基本保持同步增长的趋势——2024年四个季度营收分别为0.26亿元、0.39亿元、1.21亿元、9.89亿元,全年营收11.74亿元,业绩自去年下半年大幅度兑现。今年前两个季度的收入更是比肩去年全年,且环比增长超过50%,足以称之为一份“漂亮”的业绩。中国商业科技新闻网在中国芯片冲刺IPO,与英伟达“阉割芯片”争抢3500亿一文中也提到,“如果通过增速分析,2025年一季度营收为11.11亿元,在保证季度环比增速在50%的情况下,寒武纪全年营收差不多90亿元左右。”“(你们)对全年营收预测挺乐观的。”一位寒武纪内部人士对我们表示。但寒武纪管理层则显得比较保守——28日晚间,寒武纪公告称,预测全年营收50亿元-70亿元。关于接下来的业绩表现,财报里还有两个值得关注的数据:8.28亿元的预付款项和26.90亿元的库存,这两个数据可以说是寒武纪三季度的业绩保障,即便不能保证50%的增速,也有机会冲刺20亿元。财报中预付款项和库存数据不过要强调一点,这里的预付款与备货有关,涉及HBM内存的采购可能性更大——晶圆代工前段基本不涉及预付款,封装部分预付款占比又很小。和寒武纪一样,国产芯片自去年开始基本都乘上了加速国产供应商、生态建设的东风,基本都有业绩兑现。沐曦、摩尔线程两家招股书都提到,2024年各自营收分别为7.43亿元、4.38亿元。与此同时,刚刚官宣中标中国移动10亿元大单的昆仑芯,2024年营收也在20亿元左右,一位接近昆仑芯的知情人士向中国商业科技新闻网透露,“这个数据基本属实。”02 做多中国芯片的阶段性选项当市场仍在纠结寒武纪6000亿市值是否合理时,投行已提前抢跑。8月24日,高盛将寒武纪的目标价上调至1835元,以此计算,寒武纪市值将逼近7700亿元。但无论市值指向6000亿还是7000亿,市场对寒武纪的估值逻辑始终围绕两大维度展开——概念热度和业绩基本面,只不过现阶段谈概念的乐观程度和想象空间,都要远大于业绩,情绪成分也相对更多。谈及概念,不得不提寒武纪身上极具话题性的标签:“寒王” “中国英伟达” “寒武大帝”等。尽管这些称号多源自股民之间的调侃与段子,但背后的事实是:当前国产AI芯片赛道中,寒武纪是为数不多的上市公司标的之一。对比之下,无论是出货量还是市占率均处于领先地位的华为昇腾暂无明确上市计划,而其他国产AI芯片企业如摩尔线程、沐曦等仍处于推进上市流程中。在这一背景下,对想要布局中国AI芯片的投资者而言,现阶段为数不多可选的上市公司标的之一就是寒武纪,让其市值的想象空间进一步被打开。只不过,一旦友商们顺利上市,投资者的可选项就会增多,寒武纪的独有优势就会受到一定程度的分化。而关于国产GPU冲刺上市的现象,一位二级市场投资人向中国商业科技新闻网透露,“科创板已经有寒武纪,对于国产GPU热情有限,但是创业板有可能要争一争。”毕竟,对于所有参与国产芯片投资的各方来说,故事蓝本非常重要。相对于外部的乐观情绪,寒武纪内部却在试图降温。接近寒武纪的知情人士在和中国商业科技新闻网谈及最近股价和市值大幅波动时表示,“(他们)忙着保持延续性,别昙花一现了,”该知情人士说,“陈天石周日也给员工发了内部信,提醒员工冷静、居安思危。”市场对寒武纪的乐观情绪高涨,但也有不看好其发展的投资者,看好寒武纪并没有成为“普遍共识”.一个关键原因在于——2024年上半年,寒武纪几乎在“0业绩的情况下”,市值却依然实现翻倍。不过,一个相对向好的趋势出现在去年下半年,寒武纪开始有了明显的业绩兑现。东吴证券研报,2025年4月25日东吴证券4月份发布的研报显示,寒武纪2025年全年收入预计为52亿,基本和寒武纪自身预估50-70亿元的下限保持一致,并且,东吴证券给了寒武纪2026年130倍的PE,预估的净利润是22.13亿,以此计算对应的估值是2877亿,远远低于当前6000亿左右的市值。换句话说,现在的寒武纪被高估了。有关市盈率,还有一个参考——英伟达目前是60倍左右,AMD则是170倍左右。以东吴证券给的130倍PE测算,寒武纪要达到6000亿市值,需净利润超46亿元;按其预估的25%净利率算,明年营收需184亿,若净利率 30% 则需 150 亿营收。关于寒武纪的净利润,财报里有一个关键信号——研发投入同比仅增长2.01%,这意味着在这块的开支维持在稳定的水平,未来营收增长会带来更多的净利润增长。再回到营收预期上来,寒武纪今年主力产品是思元590,单价8万元左右,明年重点出货的产品是思元690,若两款平均按10万元计,2026年预估营收如果是150亿元,对应出货量为15万颗芯片。2026年150亿营收需出货15万颗芯片。这对应30%良率需5800片晶圆,50%良率需3400片左右;同时8.28亿元预付款对应的HBM内存量,这些共同构成了稳定供货的基石。英伟达在第二财季业绩会上提到,中国是全球第二大计算市场,规模达500 亿美元且年增速 50% ,并正推动 Blackwell 特供版在华销售。若该系列落地,寒武纪等国产厂商拥有的 “别人无货” 的优势将消失,构成利空。可是,如果英伟达回不来呢?03 造富故事:人均奖励500万北京市知春路的致真大厦,是寒武纪“造富故事”的起点。寒武纪入局AI芯片的起源是2016年这波以卷积神经网络为代表的AI浪潮,还可以溯源到陈天石曾经发布的论文——《DianNao:一种小尺度的高吞吐率机器学习加速器》。早期,寒武纪对AI芯片业务的定位是覆盖云、边、端,一度还做了车载AI芯片。不过,其被业内熟知,核心还是向华为授权NPU IP,但随着华为推进自研,再加上2019年特殊时期,寒武纪一度濒临绝境。“公司当时差点就破产了。”一位接近寒武纪的知情人士对我们表示。对于寒武纪来说,这其实是一个“绝处逢生”的故事,只是现在股价疯狂上涨,因而被“造富故事”所掩盖了。寒武纪在半年报的“合并现金流量表”中明确披露,2025前六个月 “支付给职工及为职工支付的现金” 为42105.44万元(即4.21亿元),公司研发人员792人,占全公司77.95%(即全公司1016人),人均半年薪资41.45万元。不考虑涨幅的情况下,寒武纪人均年薪82.9万元。另外,2025年上半年股权激励确认的费用为1.12亿元,不考虑解禁条件,如果将这笔股权激励费用计算到总薪酬当中,寒武纪人均年薪有望达到105万元。相比“被高薪岗位平均”的薪资,股权激励的造富效应更加明显。根据半年报的数据,报告期内完成了2023年的一笔股权激励归属工作——向650名骨干员工归属了2429693股(截至2023年6月30日,寒武纪员工数1265人,意味着51.4%的员工拿到了这笔激励)。半年报发布的8月26日收盘价1329元/股计算,2429693股合计约32亿元,650名被激励的对象,人均496.78万元。不过,这个数值实现的前提是,员工需要在归属并持有至8月29日当天收盘。然而普遍情况是,科技公司员工在股权激励归属后,大多数会选择抛售股票套现。当然这其中也不乏持续伴随公司成长而财富自由的故事。除了员工,与寒武纪陪跑的投资者也同样赚得盆满钵满,其前十大无限售条件的股东中,“超级牛散”章建平持有608万股,按8月26日收盘价计算,市值超过80亿元。寒武纪的造富效应已经出现,会有人关心——未来还会有更多芯片企业挂牌上市,他们会不会稀释寒武纪“AI芯片第一股”的叙事?这个问题的核心还是业绩——大家都是市场参与者,只是有没有IPO的差别,上市之后大家就需要比产品、比业绩了。推荐阅读:芯事重重系列 中国芯片公司向美国巨头“宣战” 库克6000亿美元渡劫 硅谷芯片战,奥特曼、马斯克“神仙打架”
...
王兴的外卖大战“不计代价”,可能不止第二季度的美团利润暴跌89%
文|乔巴编辑|沈月2025年8月27日,美团发布2025年第二季度财报。这家本地生活服务巨头的经营溢利 2.26 亿元,同比下降98%;经调整净利14.93亿元,同比下降89%。核心本地商业经营利润更是从152亿元骤降75.6%至37亿元,经营利润率从25.1%断崖式下跌至5.7%。这背后,反映出2025年外卖/即时零售补贴战对美团的冲击,尤其在二季度开始显现。2月11日京东官宣进军外卖,并对5月1日前入驻商家实行“全年免佣”;5月2日淘宝闪购提前全量上线,承接外卖场景;7月2日阿里再抛出总额500亿元、为期12个月的直补计划。而为了应对这场不见硝烟的“外卖大战”,美团也做出了关键动作:1. 战略口径:Q1业绩会明确“不惜代价赢得竞争”,前提是必须守住份额与履约确定性。2. 供给侧投入:宣布未来三年投入1000亿元推动行业高质量发展;同步加大骑手端保障与补贴试点(职业伤害、养老补贴),稳定运力与服务质量。3. 需求侧:推出/放大大额消费券、0元券、低价秒杀等密集促销,带动拉新与复购。4. 即时零售突破:加码美团闪购与前置仓体系,借618档期做渗透,实现用户下单数破亿、30分钟履约成为标配,把补贴转向“高客单类目+时效体验”。然而,激烈的竞争导致利润大幅缩水,美团在第二季度的财报中指出,由于外卖行业竞争激烈,我们核心本地商业分部的经营溢利大幅下降至人民币37亿元。01巨额补贴的真实效果:营收增长,利润塌方从财报数据来看,美团在第二季度的补贴投入规模前所未有。销售及营销开支从去年同期的148亿元暴增51.8%至225亿元,占收入比重从18.0%飙升至24.5%。更为关键的是,销售成本占收入比重从58.8%大幅上升8.1个百分点至66.9%,财报显示,这主要是“为确保在激烈的竞争中提供稳定的即时配送服务而提高骑手补贴”。这意味着美团在用户端和供给端都投入了大量资源,主要意图是在这场没有硝烟的战争中守住阵地。好消息是,基本盘守住了:在美团第二季度的电话会中,明确表示营销活动加速了新用户转化,同时会员项目提升了用户黏性。二季度美团App的总月活跃用户突破6亿(MAU)。同时,年度交易用户的年均交易频次实现了自2020年年中以来15个季度的持续增长。在7月份,美团即时零售日订单量峰值突破1.5亿单。王兴也在电话会上表示,从上个季度到这个月,美团不仅达到了每日1亿的订单量,并且会进一步将这个数字提升到1.5亿单,之前美团认为还需要几年才能够实现(这一数字),但现在已经实现了。但硬币的另一面,是盈利能力的急剧恶化,第二季度溢利同比暴跌98%。利润的崩塌,源于一场“高投入、低增速”的消耗战:销售和营销费用环比增长44.8%,而核心商业收入却几乎原地踏步,导致经营利润率从25.1%的健康水平骤降至5.7%。补贴刺激的订单量的增长是以牺牲单价为代价的。配送服务收入仅增长2.8%至236.6亿元,远低于订单量的增幅,这一巨大反差清晰地揭示了补贴战的本质——用利润换市场。财报显示,“配送服务的收入的增幅远低于即時配送交易笔数的增幅,主要是由于为应对激烈竞争,使得于配送服务收入中扣除的补贴大幅增加”。这意味着美团为了维持住市场份额,不得不大幅降低配送费甚至提供免配送费服务,直接侵蚀了这一核心收入来源。更深层次的风险在于,当商家开始习惯于在多个平台间游走,美团的议价能力和独特性就在被稀释。这种烧钱换市场的模式,短期内有效,但长期来看会严重损害公司的盈利根基。另外,大幅增加补贴,影响应当主要只会体现在配送和佣金收入上,然而本季度本地商业的佣金和广告收入增速也双双环比大幅放缓,分别仅增长了13%和10.5%,低于市场预期。由此可以推测,外卖的补贴大战,也一定程度上侵蚀了到店业务。不过,隧道尽头似乎出现了光亮。2025年7月18日,国家市场监管总局约谈饿了么、美团、京东三家平台企业,要求它们纠正激进促销行为,推动理性竞争,保护消费者、商家和骑手的利益,助力餐饮服务业可持续发展。监管的介入为这场烧钱大战踩下了“刹车”,行业有望回归理性。同时,美团的家底依然丰厚,账上超过1700亿的现金储备,足以支撑它打一场持久战,并从容调整策略。最关键的一点是,尽管利润难看,但公司的经营现金流仍然为正。这说明美团的商业机器还在正常运转并产生现金,眼下的亏损更像是一场为应对竞争而主动选择的“战略性失血”,而非商业模式本身的失灵。02美团的“稳城池”战略布局美团董事长兼CEO王兴曾经在Q1业绩会上的表态清晰地传达了美团的竞争态度:“我们将不惜代价赢得这场竞争”。面对利润被压缩、流量被分化的夹击,二季度财报披露的信息表明,美团一边在核心腹地加厚护城河,一边在新战场寻找增量与确定性。今年4月,美团提出“未来三年投入1000亿元推动餐饮行业高质量发展”计划,重点不在短期的价格补贴,而在于通过技术创新、模式升级、生态协同等方式从根本上提升行业运营效率。在最核心的餐饮外卖业务上,美团尝试把竞争从“价格战”拉回到“品质 + 性价比”。王兴在电话会上表示,在过去这么多年的时间内,美团通过竞争塑造了领先地位。“我认为,即时零售业要取得成功,在各种‘花里胡哨’的东西之后,一切将归于基础。基础是什么?是选品、价格以及服务和交付。”财报提到,“拼好饭”“神抢手”等产品线持续推进,“拼好饭”已成为中小商家与连锁的新增长点;同时通过“浣熊食堂”中央厨房与“明亮灶”计划强化食安与标准化,把差异化做在供给与体验上,而不是只靠补贴,这与二季度配送服务收入仅同比增长2.8%至236.6亿元的现实相呼应:价格战天花板很低,品质和结构才是出路。美团闪购在二季度订单与交易额均“强劲增长”,全国闪电仓已超过 5 万个,并加速渗透3C数码等高客单价品类,业务正从“应急购买”走向“本地零售基础设施”。为盘活生态流量,美团把会员体系从外卖延伸到到店场景。二季度新增餐饮、娱乐、家政等多维权益,管理层披露这驱动了用户忠诚度、交易频次与交叉销售的同步提升;在变现端,佣金收入249.51 亿元,同比增长12.9%,在线营销费用增长135.47亿元,合计约385亿元,显示平台侧的经营效率仍具韧性。在供给侧,美团不只做“流量分发”,推进“品牌卫星店”等连锁化模式,推出 24 小时响应的 AI 客服专员、自动排班的 AI 排班专员等一揽子助手,目标是让商家获得更低成本、更高周转。新业务分部(包含优选、小象超市、快驴、共享出行等,含海外业务)有希望带来第二曲线增长,收入265亿元,同比增长22.8%;经营亏损19亿元,亏损率环比改善至7.1%。海外方面,Keeta持续扩张,截至7月已进入沙特20个城市;虽然新业务分部二季度收入约 265 亿元,同比增长22.8%,尽管经营亏损约19亿元,但这一亏损属于面向中长期的战略投入。更重要的是,美团在盈利承压时仍加码研发:二季度研发开支63亿元,同比增长17.2%,财报明确系AI投入增加所致——从智能调度到商家 AI 工具,再到用户侧个性化体验,AI也是美团对未来的押注之一。03Q3展望:更为关键的战略窗口期但是,展望未来,Q3业绩对美团而言可能比Q2更加关键。美团CFO陈少晖在财报电话会议上指出,“我们预计短期内市场竞争仍将持续,这将对我们的财务业绩产生负面影响。”一方面,Q2密集砸下去的补贴会在Q3继续发酵,用户习惯与心智在两个季度的交锋后将趋于锁定,这使得Q3成为争夺用户心智的关键窗口期。另一方面,监管讯号在7月进一步明朗,市场监管部门再次提醒平台要“公平竞争、规范补贴”,Q3有望呈现更理性、更可持续的竞争环境,这对于美团而言也相对有利。因此,Q3需要继续观察美团的四个方面:一、份额企稳:在强补贴对冲下,用户活跃与订单密度是否继续提升;二、盈利韧性是否显现:利润率何时以及将如何回升?随着补贴大战的缓和,营销费用率的下降也是利润修复的重要信号;其三、新业务的投入与回报平衡:持续关注海外业务能否成为新的增长引擎;其四、供给侧改革的落地速度:商家数字化与连锁化、履约效率与智能调度的改善幅度。截至发稿,美团港股股价下跌11%,报103.5港元/股。这些问题的答案将为美团的长期投资价值提供更清晰的判断依据,但是市场明显还未找到答案。推荐阅读苹果官宣9月10日发新品,iPhone 17或引发新一轮换机潮一文读懂星舰“十飞”:没有筷子夹火箭,飞船完成“关键一跃”谷歌发布Gemini 2.5 Flash Image:技术领先、定价亲民,竞逐AI图像赛道
...
10分钟就拿到了朱啸虎投资的AI陪伴产品,想让年轻人不孤独|Hao好聊X孙兆治
文|博阳编辑|可君2023年,AI浪潮席卷全球,无数创业者开始了一场寻找“下一代硬件”的竞赛。然而现实很快给出了残酷的答案。AI Pin从万众瞩目到黯然收场,Rabbit R1从革命性产品沦为智能玩具,那些试图“重新发明能取代手机的硬件产品”的野心家们,最终只能退守到了类似“录音笔”这样的小众的边缘品类。当"拿着锤子找钉子"的路走不通后,从用户的真实需求出发探索产品方向做减法,成了创业者们的新的共识。从日本LOVOT动辄3000美元的全能陪伴,到Moflin 300美元的情感慰藉,再到2025年巴塞罗那展会上那只会帮你吹凉茶杯的芙芙,AI陪伴类赛道开始涌入多个新产品。,整个行业都在寻找技术能力与用户需求的最佳交集。打开小红书,数万名年轻人正在给毛绒玩具写“养崽日记”。她们给Labubu取名、为Jellycat编故事、记录棉花娃娃的"心情变化"。明知这些都是只是没有生命的物体,他们却依然投入真情实感。因为孤独是真实的。微信好友列表有几百人,深夜却找不到一个能打扰的;想养猫,房东说不行;想找人聊天,又怕成为别人的负担。在这个把效率奉为圭臬的时代,人们最缺的恰恰是一个不计回报的倾听者。孙兆治看到了这个痛点,他创立洛博智能,推出芙崽。 作为前小鹏汽车机器人项目的设计负责人,他的选择让人感到意外:放弃高大上的具身智能赛道,转而做一个毛茸茸的包挂。当国际巨头还在追求技术集成度时,芙崽选择了399元的亲民定价。一个毛绒外壳、一双会眨的眼睛,加上触摸、语音和记忆功能。对于需要情感寄托的年轻人来说,他们要的不是一个无所不知的AI助手,而是一个需要呵护的“小生命”。它可能答不出量子力学的原理,但会记得你每一次的不开心是因为什么。在这里,“弱”反而成了一种优势,因为只有在弱者面前,人们才能真正放下防备。“什么是真正的陪伴?”孙兆治的答案是:共享记忆。就像你无法割舍一只养了多年的宠物,不是因为它多聪明,而是因为那些一起度过的时光。基于这个理念,芙崽构建了记忆系统,让每一次互动都成为情感纽带的一部分。因此,这个数字生命甚至可以代代相传。但孙兆治也聊到了他的产品哲学:颜值才是第一生产力。“用户的购买逻辑很简单:看到毛茸茸会眨眼的芙崽,第一反应是"好可爱"而不是"好智能"。至于AI的魔力,那是在日积月累的互动中慢慢展现的事。”融资方面,Robopoet珞博智能于今年5月完成了数千万人民币的天使轮融资,由上影新视野基金、金沙江创投联合领投,零一创投跟投,高鹄资本担任本轮融资的财务顾问。在融资过程中,金沙江创投的朱啸虎仅和孙兆治聊了10分钟就拍板决定投资。今天,我们和孙兆治一起,聊一聊AI陪伴、Z时代的孤独以及硬件产品设计的底层逻辑。 这个毛茸茸的AI要当你的“数字宠物”郝博阳:欢迎孙兆治来到《Hao好聊》节目。孙兆治:大家好,我是珞博智能的创始人孙兆治,很开心来到这里。我自己做了十几年的汽车设计,然后做了三年的具身智能机器人设计,然后2024年开始从创业角度做AI陪伴硬件这个方向。我们的第一个商业化产品叫做Fuzozo(芙崽),是我们的第一款面向大家的产品,它是一个AI养成系潮玩,大家可以看到它是一个毛茸茸的,类似于包挂形态的小东西。 郝博阳:请介绍一下芙崽,它现在都有什么样的功能?孙兆治:它是一个养成系潮玩,可以把它当做宠物来养。怎么养呢?首先你跟它之间的亲密度是可以养成的,它见到你的第一天、第一个星期、第一个月、第一年的反应都是不一样的。 它的性格是可以养成的,我们有五只崽,我们讲了一个金木水火土五行的故事,每只崽的性格特征都不一样,相当于它的MBTI是不一样的。 你还可以通过每天和它的交互去影响它的性格,可能我这只崽一开始是一个很内向的崽,如果我经常带它出去玩,见新的朋友。见多了之后,它可以从一个很内向的崽慢慢变成一个很外向的崽,这是有可能的。除此之外,可以跟它自然地对话。很多朋友看到它的第一反应是去摸它,它有触摸和晃动的感应。郝博阳:触摸感应区域都在哪里?孙兆治:你会发现你摸它的额头跟下巴它都会有相应的反应。你可以观察到它有一个水灵灵的大眼睛,其实是一个屏幕,圆形的屏幕。所以它对外的表达,一个是通过它的眼睛能够表达很多情绪,再一个就是它有它的语言,我们叫毛毛语,它自己会有自己这种很可爱的语言。通过养成它也可以说我们人类语言,但是你要把它养好。郝博阳:它也是一个养成的过程解锁的能力?孙兆治:是的,如果你把它把玩在手里面的话,你能感受到它有震动。你放在桌子上面,它有时候会摇头晃脑,里面有一个震动马达。它还有陀螺仪,你不小心把它掉到地上,或者说你带在身上晃动的时候,它都有感觉的。不同的崽它的反应还不一样,它的表情还不一样。郝博阳:那它们的语言,毛毛语,这个是每个崽的语言都是通用的吗?孙兆治:都不一样,每个崽有口头禅,我们找不同的配音老师去给它配的,每个崽配了几百个声音去表达它自己不同的情绪,还有一些小小的表意的声音。它的人设上面是一个类似于小伙伴、小朋友。你跟它聊一些很深奥的东西,它未必能懂。但是它结合它自己的性格特征,它会有它的反馈。具身智能太远,情绪价值更近郝博阳:当时为什么想要做这款产品?孙兆治:我上一份工作是做具身智能机器人的。当时做机器人的时候,大家想的更多的是机器人什么时候能够进工厂打螺丝,或者在家里帮你洗衣服、做菜、收拾家里做保姆。但是我们作为产品经理和设计师,很容易会想到说除了生产力价值之外,机器人还有另外一个很重要的价值,就是情绪价值,而且情绪价值的天花板一点都不低。我自己的判断,我觉得机器人在情绪价值上面会先爆发。郝博阳:为什么从具身智能出来以后,你打算做这个赛道?孙兆治:我做机器人会发现一个问题,就是具身智能今天离商业化比较远。 我最enjoy的那个点,就是我能够交付一个有用户价值的产品到用户手里,用户使用之后告诉我哪些是好的,哪些是不好的,然后我持续迭代,这个是对我来说很爽的过程。但具身智能离这步还挺远。 所有具身智能从业者,如果他足够诚实的话,是不会说商业化路径是在近3-5年可以实现的。我讲的是通用机器人这个品类。但是具身智能整个是一个技术栈,有没有可能溢出一些技术,促使一些新型的产品出现。我觉得这个是有可能的。 很多公司,包括特斯拉、小鹏,都把人形作为终极的产品形态。我觉得这套思路是对的,因为中间的所有形态我认为都是一个过渡形态。在技术路径都还没有清晰的时候,我着急去做市场化产品性来探索,其实是浪费时间。等到技术稳定了之后,我再去想这个技术做什么样产品,我觉得这个是一个正确的思路。 郝博阳:但是你现在做的也是当下的人工智能跟具体硬件的结合,它本身来讲也算是一种小型机器人?孙兆治:定义上算的。但它是一个AI硬件,它不算是具身智能。 而且这个产品的壁垒不在硬件,而一定是在AI端。这个产品的难点在于怎么样把今天AI在情感上面的一些应用,能够做一个最小集出来,放在一个最适合表达的容器里面。郝博阳:在这之前,AI陪伴类产品已经很多了,比如LOVOT。现在还会入局这个市场,你是看到了什么缺失的机会?孙兆治:我们看到关键变量是大模型,基本上这个赛道你可以把所有的产品分成大模型前产品跟大模型后产品,我们是大模型后的第一批产品。 LOVOT日本的公司做这个产品对我来说是很有启发意义的产品,我专门跑到日本去跟他们聊,观察这个产品。日本的公司在这种非常细腻的体验上面确实是有天赋。我们这个产品在研发的时候参考了大量的养成类游戏的设定,这个品类也是日本人做得最好。带着面具生活的Z时代需要一个无威胁的AI郝博阳:可能购买你们产品的消费者是谁?孙兆治:我们最早研究过Z世代人群、老年人跟小孩三个群体。最终我们发现,最需要情感支持的是可能很多人忽视的Z世代人群。我们看过一个论文,说如果从年龄轴上看,人一生中最孤独的两个年龄段,一个是70岁以后,另外一个是20多岁。我们观察到,对Z世代尤其是Z世代女性有很强的焦虑感跟孤独感,他们也没有很好的排解途径。我们看到的唯一有效的两个途径,一个是养宠物,猫猫狗狗。第二个是如果你有一个好的闺蜜,可能可以跟她聊一聊,这个东西也是可遇不可求的。我们跟很多用户聊到一些很细的话题,他们会认为,年轻人看上去有很多生活方式可以排解这种孤独感,但实际上当这些喧嚣离去的那一刻,反而是你孤独感最强的那一刻。郝博阳:为什么会变成这样?孙兆治:还有一个原因是信息轰炸得太厉害了。今天年轻人可能比10年、20年前我们年轻的时候会更孤独,科技越发达,人类越孤独。 科技在尝试去解决很多生产力上的问题,工厂也慢慢自动化了,车都要自动开了,饭都预制了,你的社交都可以用AI来匹配,看似解决了很多问题,但是我们看到的是反而大家的孤独感会越强。郝博阳:Z世代的孤独是从哪里来的?孙兆治:我觉得还是人最底层的社交需求没有被很好地满足,就是人在社交当中去寻找自我认同感、自我定位在今天是很难被满足的。人很难构建一个深度的情感关系,能够获得足够友善的支持。大家在社交当中都要戴着很重的面具,都要非常非常关注自己的行为模式。但是如果用户面向的是芙崽的话,用户会非常的放松,它不会觉得说我还要面临一个社交压力,我也不会去假装自己是怎样的角色,我可以完全地打开自己的心。 这样的关系,现在今天的社会当中是非常缺失的。 郝博阳:这个可能也是弱AI智能的价值?孙兆治:没错,它会让你卸下很多负担。设计的减法,只做“活感”郝博阳:从最初的设计到最终具体的呈现,这个过程中都有什么关键的思考?孙兆治:我们早期做过一个概念性的产品,它是一个类似于桌面小机器人,像一个小具身。那个产品是我们技术探索的前瞻性产品,我们最早有很多技术上很fancy的想法。那个小东西我们上了一个多模态模型,它有视觉,有6个自由度,我们在上面实现了用模型实时地控制它的所有动作。但那时候我们对于目标用户没有了解那么多,也没有想那么多。随着我们跟目标用户,也就是Z世代女性人群做深度访谈后,发现你想象的那个产品的很多的点不在用户的点上面,用户care的可能是另外一些东西。我们要进一步做商业化产品的话,我们必须做减法。郝博阳:做减法的方法还是从用户的需求为基础出发?孙兆治:对。我举个例子,女性用户其实最care的是这个小东西它是不是真的能够懂我。它在我需要的时候是不是真的能够愿意能够陪在我身边,给我一些情感的支持。而它有几个自由度,能怎么样做很多动作,用户未必愿意为这个成本而付费。 自由度增加,电机增加,都是成本。有时候价格差一倍,用户覆盖面可能是一个量级的变化。用户的需求里面有一个隐含的永远就是成本。用户可能不会告诉你我愿意为什么付费,不愿意为什么付费,他会告诉你我想要A,想要B,什么都想要。但是作为产品经理最核心的能力就是取舍。我们早期跟用户聊之后,会发现用户对这个产品能够带出去,他们认为这个事情很重要,所以我们花了很多精力把它做得足够轻、足够小。这样我还有一个目的,是我把它的成本能够降得足够低,这样它是一个更普惠的AI硬件,更大的用户群体。郝博阳:为什么会想到要用包挂这样一个形式来构造这个产品?孙兆治:这是一个偶然,我们当时在做一次用户访谈的时候,邀请了很多年轻的女孩子来看我们的产品,那个时候还是我们在做更早的产品形态。我们会发现用户想要它更轻、更小,可以随身携带,只是说我们不知道它应该在哪个生态位。 来的所有女孩子包上面都挂着一个小崽子,基本上是一个毛绒的小东西。我们觉得这个生态位很好,因为它本来就是一个情绪价值的东西,它一定会随身携带,只要你好看,它天天会带出去,会带着你,你会带着它到达各个不同的场景,就自然而然就这么定下来了。这是一个近距离用户观察的结果。我觉得这是一个很重要的设计原则,就是情感化设计。尤其是我们在设计智能体的时候,因为人目前对于AI到底能够做什么还是一个不太确定的状态。 我们今天看很多这个机器人的科幻电影,包括一些游戏、一些小说,都会把机器人定义成是一个将来会反叛的角色,它会起义,它会推翻人类,大家内心当中对于机器人实际上是有点恐惧感的。机器人Robot的英文在它的词根含义是奴隶的意思。我们东方人对于机器人天然还是比较友好,你看日本的很多动画片,或者是文学作品里面,认为机器人是一个强大而友好的角色。我们认为在设计上面要有一个很重要的命题,就是怎么样去消解一个智能体给人的恐惧感,去建立某种程度的安全感跟信赖感。郝博阳:你之前做的哪件事可能跟现在做的这个事的内核最相近? 孙兆治:最相近的话肯定还是在小鹏我们做机器人。因为机器人包含了这样产品的技术栈的产品,它足够复杂,所以那个时候我们在做具身智能的时候,更多的是做概念产品。就像做汽车,我们有时候做概念车,现在基本上大家都在做概念产品。在小鹏的时候,我们做过一个人形机器人,故意把它做得不像是一个人类,而更像是一个机器人。它这个头是一个扁扁的形状,它整个的身材比例会稍微矮一点点,头会稍微大一点点,身体整个比例有点像塞尔达传说的那个男主角叫林克。 它是一个小矮人的角色,所以你天生不会对这样的比例、这样的形态的产品会有那么强的恐惧感或者被侵略感。 郝博阳:从一个你觉得没有威胁的产品,到它变成一个你真正跟它能够建立感情的产品之间,最重要的元素是什么? 孙兆治:这个产品最重要的三个点是:颜值、AI和玩法。 颜值是解决说我想不想拥有它的点,但是用户买了之后能不能持续地使用,且能够持续地获得快乐,还是靠后面的AI这部分以及相匹配的玩法。郝博阳:产品交互的设计,你是怎么思考的?孙兆治:看到这么个毛茸茸的,你肯定要想去摸它,想去摸头之类的。我最早是做汽车内饰设计的,这个东西跟人机交互是强相关。 汽车最早是纯机械的交互,方向盘、换挡拨钮、按键,到后来很大程度上电动化,我们里面现在出现了大屏幕,按键都没有了,然后语音交互等等。 到机器人,其实整个的交互又变得更加复杂,机器人怎么样跟人交互?机器人怎么样跟环境交互?机器人怎么样跟另外的机器人交互?到今天我们开始做这个产品,我们自己的判断是,人和产品或者人和机器之间的交互模态会慢慢地步入到一个新的模态,上一个阶段可能是以GUI为主,兼顾一点点的语音交互,下一个阶段我们认为会进入到一个自然交互的新时代。 什么叫自然交互?我们现在就是在自然交互。我说话然后看你的表情,有些手势,基本上是三个模态,视觉、听觉加上一些动态,可能还会有一些触觉这样的模态。这个产品是,它有眼睛可以表达情绪,它有语音链路可以表达它的语言语义上的东西。触觉它也有,所以本质上它跟人产生了某种程度的新的自然交互。郝博阳:为什么要把眼睛做成核心的交互点?孙兆治:整个设计是非常非常极简的,就是两个大大的眼睛,放在一个毛球上面。这个眼睛最早的灵感就是猫咪的那个眼睛。我们想在视觉表现上面留一个模态,这个东西最明显的就是眼眸的变化。 屏幕除了显示眼睛之外,我们不要显示其他的功能性的东西,这会让用户很出戏。 它要仿生就仿生得比较彻底,不要去显示一些提示信息,或者是一些物体的图片。猫猫狗狗的眼睛里面不可能显示这些东西。郝博阳:咱们这样一个AI,它能回答的问题是不是有一些限制?孙兆治:会有限制,它要遵循它的人设,它是个小baby,它不会跟你回答什么量子力学是什么东西这种问题。 郝博阳:它的设计边界是怎么去设定的?孙兆治:有一个底层逻辑,我们自己相信它是一个小的生命。一个真正的生命应该是什么样的?不应该是什么样子?我们的底层逻辑是遵循这个问题来的。比如说它的眼睛里面显示什么东西,它该说什么话,它在我在触摸它的时候,我不小心把它摔到地上的时候,它应该是什么反应。尽可能的在细节里面去凸显它的这种,我们叫活感。 养成的配方,有三味主料郝博阳:这些设定里哪些能够让人产生养成感?孙兆治:我们可以从底层思考一下这个问题,人跟宠物之间这种亲密度是怎么养成的?我认为有三个点:第一个要持续不断地投入很多的精力甚至金钱。你能看到你的宠物是成长的,你照顾得好,它长得好、照顾得差,长得差。这个就是投入跟正反馈的逻辑,很多养成游戏也是这个逻辑。第二点是像小猫小狗这种有智商的宠物,你养段时间之后它会越来越懂你。它会改变它自己的行为模式,你会感觉养了一个独一无二的属于你的宠物。它能懂你,你也会为它做改变,它也会为你做改变,你们会建立一个情感的链接。第三个是宠物往往不只是你的宠物,还是你家人朋友的宠物,它是你的一个社交节点。它是一个家庭成员,你们会经常会谈论它,这个也会加强你跟它之间的情感关系。这三个底层逻辑有很多的养成游戏也应用了,这个玩法应用到一个AI硬件上去也是成立的。比如说你跟它之间会有一个友好度的养成。你不用自己费心费力地去思考,我今天应该怎么跟它沟通,它自己有它自己的想法。你也可以有选择地去做这些它的任务系统。这样的话,你每个人养出来的这个崽,它的偏好也是不一样的。你的行为本质上决定了它的性格往哪个方向去发展。但是你选不同的任务,都可以去达成类似的目标,就是我跟它会越来越亲密。比如我们还有一个社交的玩法,它有一个NFC。比如说你有你的崽,跟我的崽见面之后,它们俩碰一碰,就可以交朋友,交了朋友之后我们APP上就会看到它的好友列表。这不是你的好友列表,是你的崽的朋友圈。它可以看到它的朋友今天是什么状态,然后还有一些小的互动。这个有点像说你下楼遛狗,可能朋友的狗,然后狗跟狗先成为朋友,然后背后其实是人和人的社交。郝博阳:陪伴的本质是什么?孙兆治:这个问题很深。我觉得真正意义上的陪伴,它一定要有一个所谓的shared memory,就是一个共享记忆。但是最终我们想象一下,如果我们养一只猫、养一只狗,最终我们无法跟它割舍的是什么?是这么多年下来,它跟我们经历了很多的事情。它一直陪伴在我身边,它已经不再是一只我刚刚遇到的时候的那只猫了,它是跟我一起生活了这么多年的那只。哪怕它只是在一些时候静静地陪在我身边,这个都是有效的。 我们在技术上专门花了很大的力气去做Echo chain这样的一个仿生记忆体系,就是为了去承载这个 shared memory。所有的用户如果他长期使用我们的产品,无法割舍的其实就是这个点。陪伴的实现,要榨干模型的能力郝博阳:你刚才提到的Echo chain,包括他自己更新的这个性格方面的成长。这些东西到底是怎么用底层模型来实现的?孙兆治:简单讲的话其实Echo Chain就是一个情感的Agent。它调用不同的模型,也在调用不同的功能去实现这个整个的陪伴的链路。 我说一下整个的交互链路,当我跟它说一句话,这句话进来之后,首先我会用模型去判断你的语义是什么?你的意图是什么?做一个意图理解。 它从这里面去抽取你的情绪的状态,时间空间信息、记忆模型 。最终所有的上下文进入到一个prompt manager里面去,然后结合它的人设,给到一个交互模型。交互模型的输出也不仅仅是一句话,它还有代码来控制它的一些行为和表情。所以说我跟它说你今天看起来有点蠢,它会伤心,这也是模型输出的。郝博阳:性格不一样,这个是写在系统prompt里?孙兆治:对,它会先去判断自己的的性格。然后也作为上下文添加到应该给你一个什么样回复。郝博阳:这个其实是一个相对来讲比较长的链路,所以目前它的一个延时大概能有多长时间?孙兆治:你刚刚其实有体验过,大概2秒钟。 因为我们是加了长期记忆,长期记忆大概要有几百毫秒在里面,所以做到两秒钟几乎就是极限了。郝博阳:这个是一个实时交互的链路。除了这个链路之外,还有一个反思?孙兆治:是这样,它每天记的这些所有的记忆,一条一条的所谓的记忆流,它后面都会有个标签。这个标签有若干个,它比如说时间戳、重要性等等。所谓的这个重要性积累到一定程度之后,它就会触发一个反思。每天晚上日落西山的时候,它在琢磨今天所有经历的这些事情意味着什么?我从当中能够抽取总结出什么更高维度的认知,比如说它怎么能够对用户有一个画像?你是什么性格的人?你喜欢什么?不喜欢什么?你最近在愁什么事,你今天这个不开心的原因到底有可能是什么?它是靠这种反思来获得的。因为有可能你跟它说的话里面并没有直接的答案。 郝博阳:它反思出来的东西是什么形式?孙兆治:自问自答。问什么?答什么,都是模型来判断的。 郝博阳:它只是知道现在我们这谈话挺重要的。但因为这些谈话我应该变成什么样?完全都是模型自己去调整的?孙兆治:是的,所以我们要测试很长一段时间,看它效果好还是坏。但是这是正确的玩法。 我们最开始搭这个架构的时候,就是考虑尽可能少用规则来做,尽可能多用模型。模型越好我产品体验就越好。 性格养成意味着它需要知道今天一整天,比如说我经历的所有的事件到底能怎么样,在一定程度上影响我的性格的变迁。 这是一个很复杂的问题,它也是调用的模型来解决这个问题。 如果是一个规则设定的话,我们认为没有办法让用户有一个足够细腻的体验,所以我们依然是用模型的能力去判断。这也是为什么我说我们背后这个模型的调用量会很大,几倍、十几倍于我们的竞争对手。因为背后很多的判断都是模型来做的。郝博阳:现在的基础模型是不是真能完成人格的模拟?孙兆治:刚刚好。如果我们再提前个半年、一年的话,模型能力就是做不到,所以这个时间点做这个事情是刚刚好的。DeepSeek出来之后这个事才真的make sense,之前是会吃力很多。 郝博阳:用的是一个带思维链的模型,还是不带思维链的模型? 孙兆治:推理能力足够强的这部分会用带思维链模型,慢慢思考。郝博阳:咱们现在这个模型对于记忆的认知,包括这个反思系统,它都是微调的吗?模型基础的数据来源是在哪?孙兆治:模型我们有微调。我们自己的数据,对话数据。我们没有用原始的用户数据,一般来说我们会用模拟生成的数据来做这事。使用的都是非常贴合我们用户的使用场景的一些对话类数据。比如说你早上起来或者晚上哄你睡觉;或者说直接social的场合;一些比较emo的一些情况。都是非常垂类的针对用户使用场景来做的。郝博阳:很多创业公司也是试图对模型做一些微调,但微调效果可能还不如加prompt好。所以你在这块处理是有什么特别的方法吗?孙兆治:首先你得是懂行的人来做这事。再一个我们也会有取巧的办法,我们这个产品,我们本身就不是训练一个非常全知全能的AI,是一个小家伙。很多非常复杂的问题,它本来就是不会去思考的。强化它在情感陪伴下的场景下的这样的对话能力,不需要它在全知全能的领域还要维系一个非常好的对话能力。 让模型的记忆,成为你的传记郝博阳:小红书上会有很多用户问,用户跟他聊天的这些历史能存多久?存储在什么地方?孙兆治:这个模型是跑在云端的,用户跟它的长期记忆也是存在云端的,我们这个Agent在调用不同的模型去解决不同的问题。所有的推理也是在云端实现的,包括用户和它的记忆的变迁,以及它的数字生命的存储。我们做了一个真正意义上的长期记忆的系统。它的记忆是可以永久储存的。理论上说我今天养这个崽,我可以把它当传家宝来养,我可以给到我的孙子,到那个时候我的孙子通过跟它对话,可能硬件已经变化了,但是它里面的那个数字生命还是它。我的孙子跟他对话可以了解到某年某月某日它跟这个爷爷之间的关系,它是可以保存到这个程度的。 而且你如果仔细观察,现在的AI陪伴类的软件产品,真正能收上费的只有两项:一个是对话时长,第二个就是场景记忆。场景记忆功能让用户的付费意愿变得非常高。郝博阳:保存到具体的年月日的这样的数据? 孙兆治:对,因为它每天会在写日记的。它有一个小功能,每天会写一篇日记。你可以通过APP来查看它的日记,它是对时间轴有非常清晰的认知。郝博阳:它每天会记录什么? 孙兆治:这个问题很好,我到底该记什么?不该记什么?这个问题的答案我们是交给模型来判断的。 而模型判断它的逻辑是说它是在作为一个你的情感陪伴的伙伴,以这个东西为准绳去判断这个事情。我们不会去存储原始的用户的对话的数据,我们会即用即丢,我们把这个东西给到模型,让模型判断这个东西总结出来是什么样子的,然后就丢掉了。 基模会吃掉工具但情绪价值的市场永远离散郝博阳:你对这个产品的定义也是AI潮玩。那你觉得这个产品是更偏向于陪伴,还是更偏向于潮玩?孙兆治:首先它一定是一个cross over的状态,现在我们也没有完全去定义它到底是个啥,它是个新的东西。一定要找一个词的话,我们把它叫AI搭子,就这是一个新的品类。AI搭子将来一定会是一个品类,而且是一个挺大的品类。郝博阳:就是非强功能性AI。孙兆治:对,你想象一下,我们看的所有的关于科幻片或者是一些游戏小说里面,它里面总会有这样一个小机器人的角色,就是一个小跟班,它也没什么大用,主要是提供情绪价值。可能有一点小用,然后这个整个电影结束之后,周边卖得最好的就是这个品类。我们认为将来哪怕是机器人走进千家万户、遍布世界每个角落的时候,这个品类依然是一个非常强力的品类,几乎每一个人都想要至少一个这样的搭子。郝博阳:它不是解决问题,它只是解决情绪。以后机器人会是统一的形态吗?孙兆治:它不一定是人形,这个小跟班不一定是个人形。因为它是个纯提供情绪价值的产品,所以它是遵循萝卜青菜各有所爱这样的逻辑的。如果它是一个生产力价值的东西,可能它会有唯一解,有可能出现赢家通吃的格局。但是情绪价值的产品,我认为它最终是一个离散市场,它会存在很多风格,不同的公司,不同的品牌,它都可以存活。我们看到所有的偏情绪化场景的硬件的产品都是非常离散的市场。郝博阳: AI陪伴APP类的产品,我们现在看来他们大部分最终都导向了一个恋爱关系。 孙兆治:对,或者是偏类人际关系,或者是这样一种感觉。但我们是认为人和智能体之间很显然有其他的关系可以成立的,可以存在的。比如一个偏宠物或者说这种心灵互相支持的这样的角色。 第一代AI产品,不要靠AI讲故事郝博阳:做第一代AI产品,AI功能和设计,哪一方面更重要?孙兆治:这代产品来说,我认为设计更重要。我们很多用户看到这个产品,直接会跟我们说,你这个产品就算没有AI我也想买。一个这么可爱的毛绒的,眨巴眨巴眼睛的包挂足以让消费者动心,从卖货的逻辑上来说,颜值起到了决定性的作用。 我们今天做好了心理准备,我们不要依靠讲AI的故事去吸引用户下单购买。 我们让这个产品本身很多方面就已经足够吸引用户了,等到用户用起来之后,可能AI的一些潜移默化的影响,才慢慢开始。做AI硬件类产品的创业公司一定要有这样的觉悟,你很难靠讲AI的故事来吸引用户的。像小米的AI眼镜现在也很火,它本质上卖的就是第一人称视角的拍照,大家要的是这个东西。 从用户视角来说,我看的是说它能够给我提供什么价值。AI的价值是非常难理解的,至少你没有深度的体验之前,它是非常难理解的。 就像一开始做汽车做自动驾驶的时候,不要期待说所谓的智能驾驶对于用户购车判断上面的吸引力足够高。用户买车还是价格、颜值、品牌、舒适度等等这些东西。但是用户开始用你的车之后,你如果自动驾驶做得好,慢慢用户会get到这个点。泡泡玛特开了个好头做toC产品得没有短板郝博阳:朱啸虎据说是十分钟之内就决定了要投这个事。你觉得哪一个点是最让他能下这个决定的?孙兆治:我觉得朱啸虎老师他首先肯定是想好了这个方向是好的,然后才开始找这个赛道的团队。找到我们之后聊完之后是想听我对这个产品的一些理解,包括我们的核心的一些卖点是什么?我们做的减法是什么?我们保留的东西为什么保留?聊下来之后他就觉得,你这个想法跟我的想法很像,而且可能有一些想法比我想的还要更细腻。 这个阶段无非就看两个,一个就是整个的创业的方向,再一个就是团队,看一下这帮人靠谱好就投了,决策非常的快。郝博阳:市场上是基于什么判断认为这个赛道已经到了爆发点?为什么是现在不是去年或者是明年?孙兆治:我觉得这个跟一个事件很有关联,就是去年底DeepSeek的爆发。在去年很长一段时间,我们在讲说这个让用户跟一个智能体交朋友的时候,很多人不相信。他觉得模型能力还不到。DeepSeek至少让很多投资机构认为模型到了这个阶段了,它可以做这个事情了。肯定还有其他一些原因,比如说去年的时候,泡泡玛特的股价还没涨这么厉害,那时候大家对于这个所谓的情绪价值持怀疑态度比较多。郝博阳:现在它的供应链是成熟的状态吗?孙兆治:这类产品的供应链是相对比较成熟的。现在你可以找到一些几乎是所谓的通版方案,但是通版方案可能做没有我们这个好。它基本上只能实现一个对话的非常简单的对话功能,就是一个对话盒子塞到一个毛绒玩具里面。对话盒子现在华强北已经卷到可能二三十块钱一个,贴着成本在做。但是这样的产品解决方案,它的体验是很难做到很细腻的。 它的情绪怎么变化?它的性格怎么变化?然后我跟它很多的交互,能不能告诉大模型能不能知道这些交互能不能有长期的记忆等等,这些是很难做到的。所以我们看到在今天在这个赛道上基本上是两类玩家,一类就是选一个通版方案,另外一类就是像我们选了一条更难的路线,我们自研的模型,自研的长期记忆,然后我们整个硬件上面为了达到我们想要的状态,它完全没有办法用任何的现成的解决方案来做。最终我们认为这群用户是一个体验敏感性用户,她不差这一两百块钱,她要一个好东西。郝博阳:品牌叙事打算怎么去讲? 孙兆治:品牌不是一个短期的事情,得长时间做。我们会去跟大家去讲述毛毛星球上面的金木水火土毛崽们的故事,我们会去构建整个的故事系统,整个的世界观。 同时我们很少有同类产品,从一开始就有线下体验店。我们会在7月份整个会有北京、上海、深圳三家线下体验店,大家可以去实际的,因为这个产品是需要上手的,实际地去体验它,去通过我们的店员去讲述这个产品的诸多的玩法,来一点一点地把这个品牌叙事给构建起来。| 本节目也有音频 |你可以通过腾讯新闻、小宇宙等平台收听节目 如果你喜欢我们的节目,欢迎点赞支持,或者把我们的节目推荐给更多的朋友~|认识我们|《Hao好聊》是由中国商业科技新闻网发起的深度访谈项目。我们关注那些正在重塑时代的人——他们是第一批触摸未来的人,在技术变革的浪尖上冲浪;也是搅动潮水的创造者,用代码与远见重新定义商业与文明的边界。我们聚焦科技领域的「先行者」,与他们展开沉浸式长访谈,探寻技术浪潮下的思想交锋。当AI开始改写人类社会的底层逻辑,亲历者如何理解这场变革?当技术奇点临近,那些最接近答案的人,如何看待我们共同的未来 ?《Hao好聊》希望深入技术狂热背后的人文思考,记录产业剧变中的个体抉择,与行业参与者共同探索未来的可能性,成为产业进化的见证者。|联系作者|作者专注AI赛道,如需交流或提供信息,请添加微信haoboyang001AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。推荐阅读聊聊创业公司与谷歌达成合作的幕后故事,以及AR眼镜的“iPhone时刻”|Hao好聊 X 徐驰
...
vivo的下一个十年
“狐狸知道很多事,刺猬只知道一件事。”在古希腊的寓言《刺猬与狐狸》里,狐狸聪明机警,不断尝试绕圈突袭,刺猬却只会一招,蜷身成刺。最终赢下来的,不是多谋善变的狐狸,而是刺猬。管理学家吉姆·柯林斯借此提出“刺猬理论”:真正卓越的公司,不会在十个方向上平均用力,而是找到那个唯一的交集:深深热爱、能够做到最好,并能驱动经济引擎的那件事。vivo过去三十年里,从电话机到智能手机,一直聚焦通讯业务。这并非固守,而是选择层面的谨慎:面对短期风口,严格恪守边界;面对正确的事,脚步则显得坚定。8月21日,vivo Vision混合现实头显探索版正式亮相。而此前的vivo Vision探享会上,vivo也曾透露其更长远目标——家庭机器人。 可见,当众多技术浪潮齐头并进,vivo也做出了相应的抉择。抉择的背后关于为何挺入MR与家庭机器人领域,vivo的回答很素朴:坚持用户导向,做正确的事。在商业世界,讲过这句话的公司不少,但真正的践行者却并不多。在vivo的视角里,“正确”与否,并不等同于“能做什么”,而在于“用户真正需要什么”。vivo过去三十年来,一直在回答这个问题。电话机年代,专注于让沟通稳定、清晰;功能机阶段,市场上不乏花哨的设计,其却把Hi-Fi音质做成一代用户的回忆。而智能手机浪潮里,vivo也一路沿着用户需求,围绕设计、影像、系统、性能这四条长赛道持续推出极致体验的产品。这期间,从热点到风口,无数诱惑在眼前一晃而过。比如2011年前后的3D手机,或是后来的模块化手机、全息投影手机,厂商过度押注“新奇”,却没有满足大规模用户的核心需求,最终难逃“短命”的结局。这些热点,vivo几乎没有参与,而是将资源集中在影像、性能等用户高频刚需上,覆盖数以亿计用户日常生活里的真实需求。因此,在外界看来,vivo投入MR与机器人,似乎是押下新的筹码。但在它一贯的逻辑里,这只是基于战略定力,对下一个十年、对广泛而高频的用户需求的认定。以MR为例,之所以重要,不是因为概念本身炙手可热,而是因为它延续了人类“感知”进化的必然:印刷术的发明,让知识被复制、扩散,改变了信息的可得性;屏幕,压缩了时间和空间;MR,叠加了虚拟与现实,重塑了人类与场景的关系。每一次迭代,背后都是用户“需求边界”的拓展。vivo Vision探享会上,vivo执行副总裁、首席运营官、vivo中央研究院院长胡柏山,将MR定义为物理世界和数字世界的桥梁,在vivo的战略设想里,MR并不是单一的硬件产品,而是通往家庭机器人的必经之路。答案,依然要从问题出发。民政部数据显示,截至2024年年底,我国60岁及以上老年人口达到3.1亿,占总人口的22%。根据预测,预计到2035年,60岁及以上人口将超过4亿,占比超三成,进入持续老龄化阶段。同时,家庭近3小时的人均家务劳动时间,也给每个人带来压力。压力叠加之下,谁来陪伴、守护、照料数亿老人,是不可回避的需求问题。家庭机器人看似是理想解法,但真正落地,远比理论要艰难许多。家庭环境涉及大量非结构化场景,如何感知复杂场景,并做出即时决策,有着很多考虑、顾虑。前不久,世界人形机器人运动会上的机器人”撞人“事件,就是一个值得思考的案例。机器人领域专家、艾欧智能创始人陈相羽在探享会上指出,MR设备可以为机器人提供丰富的训练数据,同时作为人机交互的重要工具。而在vivo看来,“大脑+眼睛” 是破解家庭机器人的关键技术,家庭机器人真正走进千家万户,需要借助MR的能力跨越鸿沟。可见,vivo对MR的选择,不仅事关产品本身,也关乎更长远的未来。产品是公司的“投影”“刺猬理论”里,所谓做到“最好”,并不是去追求全球第一名,而是在一家企业所选择的路径里,没有人比其更契合、更深刻、更持续。就像柯林斯书里的例子:过去的沃尔格林(Walgreens)不是全美零售规模最大的药店,但基于选址、布局、服务等方面的极致,它在“最便利的药店”这个定义里,是“世界上最好的”。路径选取,其实暗含着对于企业基因与潜质的判断:若非企业的核心能力,就算投入再多资源,也很难长久立足;若契合基因优势,就必须投入到极致,让别人难以企及。vivo是国内首家同时布局手机与MR的科技企业。在胡柏山看来,vivo的能力一方面在于用户洞察、场景识别、标准定义等;而MR对影像、AI大模型的技术需求,也与vivo过去的“能力圈”衔接。这其中,用户洞察这点,值得关注。比如,多位视频内容创作、艺术科普和游戏领域的MR玩家代表都谈到,现阶段MR在部分垂直领域表现不俗,但对于广泛的C端用户而言,MR设备佩戴舒适度和观看体验仍有待提升。以佩戴舒适度为例,决定因素有二,一是重量本身,二是分散和承载重量的方式,比如轮廓设计、材料应用以及绑带等配套方案的选择。对MR产品而言,就算只重了100克,带来的压力感知,都会在面部的支撑点上成倍放大:鼻梁发酸,额头勒痕,颈部难以负荷等。但如果设计合理,即便整体重量偏重,也能通过绑带、支撑结构等方式分散压力,从而改善体验。最为明显的例子就是苹果Vision Pro,其因600-650g的重量,被用户集中吐槽。而不少用户在社交平台分享的自制绑带,甚至“头盔式”改装,就是为了缓解其略显集中的压力。vivo的做法,是尽可能地将这些因素全部接住。而vivo Vision机身重量仅398g,大幅领先于苹果Vision Pro。还有一点值得注意,即vivo Vision也没有追求佩戴体验的“大而全”,满足不同人种的差异,而是基于人因实验室,率先打造更贴合国人面部轮廓的多款遮光罩和泡棉,为中国用户定制。技术固然重要,但MR设备的综合体验,也需内容支撑。苹果的选择是把自己关进一座高墙里,通过软硬件、系统、应用一体化,确保体验的稳定性,用封闭生态筑起护城河。但这并非没有代价,高墙之下,内容生态成长速度高度取决于苹果的单边节奏,苹果快则快,苹果慢则慢。vivo 走的是另一条路:通过空间影像生态,连接MR设备与智能手机,并在应用层面保持高度兼容,使应用无需适配。此外,vivo亦在拥抱开放,同第三方开发者、创作者一同,推动内容生态成熟。封闭或许能圈出城池,但开放却可能铺展大陆,尤其是在早期阶段,开放或许才是加速业态成熟、吸引多元供给的关键因素。晨昏线上,等待日出商业选择,绕不开“利益”这一维度。从“刺猬理论”的视角来看,只有在“热爱”“能力”与“经济引擎”的交集处找到答案,才会形成真正卓越的企业力量。过去数年间,无论是VR、AR,还是更复杂的MR赛道,都并不平坦:前几年业界对于“元宇宙”的概念炒作,使之一度充满泡沫,但短暂的热闹,闹一闹便过去了,剩下的问题反倒更为现实。比如苹果的Vision Pro上市后,并没有像预期那般点燃大规模消费;Meta在连续投入数百亿美元后,也依然被质疑烧钱换不来生态繁荣。当然,这并非归宿,而是技术浪潮中极为常见的“技术裂谷”。变化在于,过去只有能“填谷”,唯有时间;而如今,AI奇点的到来,以及应用场景扩展等,都在推动着MR走出蛰伏期。人文财经观察家秦朔在vivo Vision探享会上谈到,由于人工智能和 AGI 的加速,信息和体验相关的空间会加速,原来MR赛道爆发可能要五年,现在两三年就有可能。而数据,也在印证着这一判断。IDC数据显示:2025年,全球智能头显市场出货量将达1280万台,同比增长26%;中国市场同比增长更是超过100%。种种现象表明,此刻进军MR的vivo,似乎踩在了一个行业黎明破晓的节点。不过,外界讨论所谓的“黎明时刻”,大都是事后诸葛般的总结。对身处其中的企业而言,黑暗与黎明并非泾渭分明的瞬间,中间夹杂着一条缓慢推移的晨昏线。日出具体多久到来,尚不可知。毕竟,尚在初期的MR赛道,终归是技术门槛高、生态协同复杂的领域。也因如此,多数巨头面对 MR 领域,仍选择观望:既不愿承受早期高投入的消耗,也不愿在尚未成熟的产业生态上下注。可见,MR赛道好比一场马拉松,不仅要速度,更要耐力与定力。这对习惯于奔跑在长赛道里的vivo而言,似乎并不是一件难事。而等待与铺叙的回报,或许不会在“第一公里”便全然兑现,但若等到行业增长坡度陡峭、黎明破晓时,早期积蓄的势能,便会以“经济引擎”的形式,成倍、甚至指数级释放。
...
人工智能“入侵”人类新闻网站腹地
文|晓静编辑|郑可君不久之后,我们阅读的各种新闻网站的首页,也许都是AI编排的。8月12日,以AI搜索为主赛道的公司Perplexity,提出以345亿美元收购谷歌Chrome浏览器。这一数字甚至高于Perplexity目前180亿美元的估值。这个大胆的举动背后,折射的是AI公司对人类信息获取新入口的野心。除了盯上浏览器,2024年,Perplexity推出了名为“Discover”的新闻聚合功能,通过AI技术实时抓取并整合全网新闻,以结构化页面呈现给用户。类似的应用体验还有Particle,这家公司由前Twitter核心团队成员创立,在2024年11月推出AI新闻应用,官方网站上的宣传是,“新闻,被组织得更好(News,organized)”。而新闻的组织者,不再是人类编辑,而是AI。Particle称,这种“AI编排”可以帮助出版商,而非"窃取他们的工作"。这两款产品分别代表了AI原生新闻的两种典型路径:Perplexity的Discover页面把实时资讯包装成可交互的问答形式,每个新闻就好像一个聚合的知识库,用户可以对任何热点话题进行深度提问。Particle把零散的新闻报道重新组织成完整的“故事”,在单一页面内呈现事件的多个视角、关键引语和背景脉络。图:Perplexity的新闻界面,用户可以看到内容相关信息,还可以自由提问图:Particle的界面,每篇文章会有总结划重点,并对一个事件呈现全方位的报道这类AI原生的新闻产品带来的用户体验和传统的新闻产品完全不同。过去,读者常在多个媒体间来回跳转,才能拼凑出一个新闻事件的全貌。Particle在官方网页就直指这一痛点:“理解正在发生的事本应更容易,为什么跟上新闻比工作还累?”如今,在AI的编排下,几分钟内就能把握复杂事件的核心与来龙去脉。从产品架构看,它们不再是简单的链接聚合或压缩摘要列表,取而代之的是以“事件”为最小单位重构信息组织逻辑。AI更像一位“总编辑”:自动识别热点、汇聚多源证据、生成可交互的解读。AI正在以“友好”的姿态,敲开人类编辑部的大门。但是,人类准备好了吗?两类AI原生新闻产品的“共性”:AI做主编,人类把关AI正在重新定义新闻的生产与消费方式,从传统的"文章聚合"转向以事件为核心的智能化信息编排。这种转变的核心在于信息组织逻辑的根本性改变。传统新闻应用的逻辑是“收集文章—按时间排序—推送给用户”,而新一代AI新闻产品的逻辑是“识别事件—多源汇聚—结构化呈现—个性化解读”。用户不再需要从十几篇相似的报道中拼凑事件全貌,AI已经帮你完成了这项工作。观察这些产品,我们可以发现AI作为“总编辑”呈现出的四个特征:首先是以事件为纲的多视角汇聚。Particle将不同媒体的报道、社交媒体发言与延伸阅读整合为“Stories”,用户可以在一个页面内看到事件的要点、关键引语、相关链接以及涉及的人物、机构、地点信息。第二是可调风格的AI摘要与问答功能。用户既能获得"5W"式的新闻要素总结,也能要求AI“像给5岁孩子解释一样”来简化复杂议题,甚至可以直接向AI提问获得针对性解答,能够根据个人需求调整信息的呈现方式。第三是可溯源和可导流。两款产品都特别重视信息的可追溯性和“向原站导流”的策略。Particle在摘要旁边并列原始媒体链接,Perplexity自带标明引用原文和外链的基因,并将Discover中的热点话题制作成Daily播客进行分发,甚至形成了从文字到音频的全媒体矩阵。第四是人机结合的审核机制。面对AI生成内容可能出现的幻觉和偏见问题,这些产品都建立了人机协作的审核机制。Particle公开强调“人机协作抑制幻觉”,Perplexity也表示在选题与深度研究场景中结合人工审核,确保内容质量和客观性。虽然目标相似,但Perplexity和Particle选择了不同的实现路径。Perplexity的Discover本质上是“可消费的答案流”。它根据用户兴趣和历史互动推荐热门话题,将相关来源、延展阅读和AI生成的分析整合到同一屏幕中。随着Deep Research功能的发布,Perplexity甚至能够自动进行多轮检索和归纳,生成类似专题研究的长篇答复,将“主动搜索”升级为“被动获知”。Particle在“故事页”中并列展示多家媒体的报道、关键引语、实体背景和相关线索,用户既可以快速扫描要点,也能通过实体页深入了解相关人物和机构的背景。Web端上线后,这种结构化组织被完整移植到浏览器中,实现了移动端和桌面端的无缝连接。从用户体验角度看,两者的差异很明显:Discover的基本单位是“话题/问题”,更像是“实时热榜+答案”;Particle的基本单位是“事件/故事”,更像是“专题页+摘要+线索”。 AI将如何重塑人类获取信息的方式?长远来看,AI正在重塑人类获取信息的底层逻辑。最直观的变化是信息的“原子化”——AI 会把复杂新闻拆解成最小的事实单元,再按场景动态重组:同一条新闻,在手机上是30秒摘要,开车时变成3分钟语音播报,回到电脑前又成为直观的知识图谱,有时又是10分钟的深度解析长文。传统新闻的“生产—分发—变现”流程也在发生根本改变。AI时代必须补上两个关键环节:“验证”和“授权”——既要用技术手段守住准确性,也要与原创媒体建立清晰、公平的分润机制。这不仅是工程问题,更是行业生态和规则的重构。围绕爬虫、训练与再分发的博弈不会自动消退——Perplexity 曾被多家媒体指责“违规抓取”,Cloudflare 也对其爬虫行为提出警告。可以预见的是,合规抓取、清晰标注、可兑现分润将成为进入 AI 信息生态的基本入场券。在这场变革中,人机分工被重新定义:基础事实报道、数据整理、背景解释等标准化工作将大比例由 AI 承担。AI编辑已经诞生,但是人类记者不会消失。人类将更专注于 AI 难以替代的核心价值——深入现场的调查能力、复杂情境下需要高情商与价值判断的取舍、以及对 AI 输出的监督与纠错。未来的记者则更像“信息产品设计师”,既要懂得与AI协作,也要把控信息的完整性与可验证性。另外一个残酷现实是,AI 创作的速度以指数级增长,我们很难想象在这种加速度下未来的阅读将呈现怎样的面貌——AI 把人类投喂的信息重组、无限再生,再反馈给人类阅读。人类最宝贵的知识与经验的传承,将不得不与 AI 协作:眼前,是编辑对失业的担忧;未来,是后代如何识别人类最本源、最珍贵的智慧。写这篇文章之前,我问了一位头部AI博主,你为什么坚持不用AI写作?他不但不用AI写作,甚至还会执着地在文章中保留一两个错别字。他给我的回答是:“因为我觉得在全世界都越来越AI化的情况下,作为人的光辉、人的本能,还有那一股活人感,可能才是最难能可贵的。”致敬“活人感”,Welcome to the OASIS!推荐阅读看完妈妈和DeepSeek的聊天记录,我哭了大模型背后的“新搜索”生意,水有多深职场父母的自述:我把育儿的心累,交给了ChatGPT
...
苹果软件代码泄密!七大产品线新品曝光
8月16日消息,苹果“自家剧透”了!苹果最近在公开的软件代码中意外泄露了多款未发布产品的关键信息,这些内部标识符为行业揭示了苹果未来产品的完整布局。尽管这些提前出现的信息未必等同于最终规格,但已足以勾勒出即将发布的产品系列与类别。据科技媒体 MacRumors 披露,相关代码涉及 HomePod、iPad、Apple Watch、Mac 与 Vision Pro 等多条产品线的下一代芯片,进一步印证了此前关于苹果产品路线图的传闻。如果这些信息属实,苹果将在 2025 年底到 2026 年初之间,迎来一次史无前例的“大迭代”。从目前掌握的信息来看,苹果将在2025年底到2026年初之间推出一系列重磅升级:包括全线产品芯片迭代、支持Apple Intelligence和游戏功能的Apple TV、搭载M5芯片的Vision Pro,以及可能在2026年初问世的高端Studio Display显示器。需要特别说明的是,尽管这些信息都来自苹果官方软件代码,但毕竟产品尚未正式发布,具体配置、功能和时间节点都可能有变。建议各位果粉保持理性期待,一切以苹果官方发布为准。一起来看看这次“代码彩蛋”里藏了哪些惊喜:1. 新款HomePod miniHomePod mini将迎来脱胎换骨的升级。这款代号B525的新品将首次采用与最新Apple Watch同款的T8310微架构,性能较现款S5芯片版本将有质的飞跃。据可靠消息,苹果正在测试支持Wi-Fi 6E的自研无线芯片组,并可能推出全新配色。最令人期待的是,当前HomePod mini搭载的是不带神经网络引擎的S5芯片,而新款将配备尚未发布的 S11...
AI走向太空!王坚院士最新演讲,提出“三体计算星座”全球协作倡议
8月13日消息,中国工程院院士、之江实验室主任、阿里云创始人王坚近日出席2025年“人工智能造福人类全球峰会”(AI for Good Global Summit),发表题为《计算与人工智能:无尽的前沿与探索》(Computing and AI: Endless Frontiers and Exploration)的主题演讲。王坚院士在演讲中回顾了图灵对计算与智能关系的早期论述,强调计算不仅是工具,更是一种与物理学、生命科学并列的基础科学。他认为,人工智能并非人类智能的替代,而是延展人类创造力的更优工具。在之江实验室的实践中,AI被用于推动地质学等领域的科研合作与数据共享,构建开放的科学AI架构,并注重治理机制与开放科学原则。他还提出“从0到1”的大型科学模型研发计划,以及“三体计算星座”全球倡议,探索将AI与计算延伸至太空,实现卫星间协同计算,以应对全球性气候、自然灾害等挑战。以下为王坚院士的演讲全文:大家好!能够参加此次活动,我深感荣幸。我非常珍惜这个场合。“人工智能向善”不仅激发了诸多思考,也为全球人士提供了宝贵的交流机会。今天,我想分享之江实验室在计算与人工智能关系领域的研究,以及如何利用前沿技术探索以往难以企及的未知领域。王坚称计算机在某种程度上类似于纸和笔在探讨计算与人工智能时,我认为它们宛如一枚硬币的两面。20世纪40年代末,图灵在其首篇论文中提出了计算与智能的关系。他在一份报告中以“通用机器”的视角阐述了人类的本质,这一观点广为人知。他曾指出,笔和纸是极为强大的工具。如今,尽管我们拥有计算机,其功能在某种程度上仍类似于笔和纸。在我看来,笔和纸始终是卓越的工具,在当时,它们的功能堪比现在的计算机。次年,图灵发表了首篇关于计算与智能的论文。我想强调,他首先提出了“智能机器”(the intelligent machine)的概念,随后探讨了计算与智能的关联。值得一提的是,这篇论文刊登于心理学期刊——顺便说一句,我的学术背景也是心理学。更为引人注目的是,在图灵构思这些理念时,“计算机”(computer)一词尚不指机器,而是指从事计算的人。在那个尚无计算机的时代,图灵已设想出“数字计算机”——一种由人或设备执行当时人类任务的系统。若抛开“计算机”这一概念,回归计算的本质,其重要性令人叹为观止。我们可以从两方面理解其意义。首先,计算不仅是工具,更是助力我们思考和解决问题的思维方式。其次,计算并非仅是计算机科学的分支,它与物理学、生命科学并列,是一门极其基础的学科。正因如此,人工智能才能以计算为基础蓬勃发展。《大西洋月刊》将去年的诺贝尔奖称为人工智能的重要时刻去年,人工智能的先驱们荣获诺贝尔奖,引发了诸多变革。《大西洋月刊》将此称为人工智能的“青霉素时刻”和“X光时刻”(意为这个行业的重要和高光时刻)。我尤为欣喜的是,这与本次活动主题高度契合,表明人工智能正为人类福祉作出贡献,令我感到振奋。当时,先驱们正致力于探索人工智能如何变革科研方式,以及推动科学与技术的进步。更值得注意的是,《财富》杂志在介绍杰弗里·辛顿(Geoff Hinton)时,依次称他为认知心理学家、计算机科学家和“人工智能教父”。在投身人工智能研究之前,辛顿是一名心理学家。回顾20世纪80年代中期,他曾与心理学家合作发表多篇论文。心理学是一门关注人类本质的学科。因此,人工智能的早期先驱始终在探索人工智能与人类的关系。从这个角度看,我认为人工智能与人类智能并无直接关联。它是一项拓展人类创造力的技术,是一种工具,但远超笔和纸的卓越工具。凭借这些技术,人类能够实现许多在没有这些工具时难以想象的成就。王坚谈AI在地质学的应用我的热情,以及之江实验室的使命在于探索技术如何助力科学家。为此,我们需深入理解科学的需求。约十年前,一位地质学家在一篇论文中描述了这些需求,简单却明确:第一,共享所有研究数据,例如岩石相关数据;第二,确保研究成果的开放共享;第三,建立支持协作的基础设施。这些看似简单的需求,正是人工智能能够发挥作用的领域。王坚介绍GeoGPT项目因此,三年前,我们受国际地质科学联合会(IUGS)提出的“深时数字地球”(Deep-Time Digital Earth)愿景启发,启动GeoGPT项目。本质上,它是一个地球科学领域的人工智能系统,正如十年前那篇论文所描述的需求。尽管GeoGPT项目仅是一项工具,但全球科学家的反馈表明,它对科学研究极具价值。我们参加了多项国际会议,如今年4月举行的EGU会议及联合国活动,吸引了来自世界各地的科学家。这既源自科学家的需求,也为他们提供了实质性支持。开展化石海绵分类研究我们与马库斯·史蒂芬森(Marcus Stevenson)密切合作,开展化石海绵分类研究,这是一项引人入胜的古生物学工作。凭借人工智能驱动的简单技术,我们将已知化石海绵类型从两位数扩展至三千余种。这一突破性发现令人震撼。若无此类技术,科学家可能终其一生也难以取得如此成果。我尤为欣喜的是,我们把这一分类标准带到非洲,在尼日利亚举办研讨会,助力当地科学家开展研究。开放式人工智能架构尽管聚焦于地球科学,这项工作还带来了另一进展,是我们构建了一套开放式人工智能架构,以推动科学发现。首先,我们确保用户了解多种大型语言模型,也就是“基础模型”,并可自由选择所需的开源模型。这带来双重益处:其一,用户拥有自主选择权;其二,不同模型各有优劣,用户可据此了解各模型的独特优势。其次,我们认识到,除熟知的基础模型外,科学领域还需“领域基础模型”。这种模型针对特定应用,需处理远超文本的复杂科学数据。科学挑战要求超越语言的创新。在此基础上,开发便于科学家使用的工具,助力其专注研究,至关重要。我很高兴这套架构运行良好。同时,治理尤为关键,尤其是在开发新技术时,需关注安全、隐私和知识产权问题。我们为GeoGPT设立了优秀的治理委员会。我不确定它是否是全球唯一拥有此类委员会的应用,但我们极为重视,确保其服务于科学家并造福人类。这成为开放科学的成功实践。去年,迈克尔(Michael)等人为地球科学家撰文介绍GeoGPT,我们视其为开放科学的范例。面对新技术,需思考其发展方向、架构如何惠及他人,以及如何构建良好治理机制,确保其发挥积极作用。 AI成为像数学一样的基础学科基于GeoGPT的经验,我们正将这些探索延伸至其他研究领域。在更广阔的框架下,这关乎“人工智能+科学”的融合。更为重要的是,人工智能正成为如数学般基础的学科。在我看来,人工智能是另一种数学,将助力科学与技术的各个领域。我们聚焦三项工作。首先,构建“大型科学模型”,代号“0到1”(0 to one)。它不同于大语言模型,因其需融合非文本的科学数据,并依赖基础设施实现成果共享。我们建立了zero2x.org网站,确保全球用户通过互联网共享这些能力。其次,我们在探索超越地球范畴的无限可能,发起名为“三体计算星座”(three body computing constellation)的全球倡议。其背景在于:太空激发了无尽的想象力。20世纪40年代末,正当图灵提出“手握笔和纸的人类是一台通用机器”时,英国弗雷德爵士(Sir Fred)设想从太空拍摄地球照片。当时尚无卫星或空间站,无人知晓地球全貌,但这一愿景极大地促进了我们对地球的理解。阿波罗17号宇航员比尔·安德斯(Bill Anders)拍摄了一张著名照片。我尤为欣赏他的名言:“我们为探索月球而来,却发现了地球”(We...
从秀Demo走向秀肌肉,这届人形机器人忙着谋生
文|小燕编辑|郑可君这届人形机器人,都在拼命求“营生”。8月9日-10日,在2025世界机器人大会(WRC 2025)上,人形机器人出现了与以往截然不同的画风。在过往的世界机器人大会上,人形机器人通常以类似“玩物”的身份出现:或是一左一右由人类“护法”牵着,或是被绳索“吊”着,抑或是被“锁”在玻璃罩里当标本。(WRC 2024人形机器人形态)而WRC2025上的人形机器人,不仅脱离了过往的“护法”和“枷锁”,还能展示自己的“十八般武艺”:千寻智能Spirit AI在现场叠衣服:灵生科技的机器人拾取爆米花:高擎机电和加速进化的机器人现场玩起踢足球,展示娱乐场景的应用:它们的共同点是都在忙于证明自己“有用”,这也意味着人形机器人从过去的“秀Demo”开始走向“秀肌肉”。不仅中国,国际知名人形机器人企业对外的产品展示,也都从“表演型”转向“功能型”,比如人形机器人鼻祖波士顿动力旗下的电动Atlas,去年出厂时还在秀运动,今年放出的视频则是秀“干活”;Figure今年出来的视频,也不再局限于与人类进行简单的交互,而是化身工人在工厂分拣物品。(上:波士顿动力电动Atlas,下:Figure02)人形机器人这种转向的背后,是其企业对商业化的渴望。WRC 2025现场,几乎每一家展台都摆着印有“市场经理”“销售经理”头衔的名片,以此变相将展台变卖场,希望现场促成合作。这样的氛围,也让人不禁提出疑问——人形机器人的能力,真的已经到了客户愿意买单的程度吗?至少从WRC 2025的现场来看,它们已经能在特定场景里完成相对稳定、可重复的任务,这意味着它们开始具备被产业链评估和试用的基础。对中小创新企业而言,这是一扇通往商业化的门;而对大厂来说,这是一笔值得重新计算的账——当人形机器人能“干点真活”,它就可能被纳入核心业务版图。于是,过去一年,大型科技公司、车企、手机厂商、互联网平台纷纷入局,大厂的动作也带动了上下游的活跃,关节、减速器、传感器等环节出现更多订单需求,而其中,作为影响人形机器人能否落地的关键零部件“灵巧手”,也成为攻坚焦点。大厂入局人形机器人开始走过“草莽阶段”在WRC 2025的现场,如果顺着展台往深处看,会发现人形机器人背后的玩家已经扩展到几乎所有行业。为人形机器人提供运控算法解决方案的桥介数物工作人员对中国商业科技新闻网表示:“今年,几乎各行各业都来做人形机器人,有做汽车的、做手机的、做互联网的、做物流的、做自动驾驶的、做工业自动化的……它们或成立子公司,或设立专门的事业部,把机器人作为一项独立业务来推进。”如果以2025年为分界线,具身智能赛道的参与者结构发生了明显变化。在2025年之前,主要由两类玩家主导:一是创新型企业,比如Figure、宇树科技、智元机器人;二是高校和科研机构,比如支持Apptronik机器人的美国NASA,中国具身智能公司星动纪元的创始人陈建宇则来自清华大学交叉信息研究院。而进入2025年,大型企业入局的趋势明显增强,比如互联网大厂如京东成立智能机器人事业部,手机厂商vivo也宣布成立机器人Lab实验室进军这一赛道,车企如蔚来、小鹏等也自研人形机器人。从入局方式来看,大型企业通常采用“自研+投资”两种路径并行,其中,互联网大厂往往先通过投资低成本获取经验和技术积累。2025年,这类企业的动作更是集中在投资层面,根据IT桔子数据显示,从2025年1月1日至2025年8月5日,已经有18家人形机器人企业完成22次融资,总额约76.08亿人民币,投资方不乏有各类大厂的身影。而2024年,仅有7家企业获得大厂投资,共8次融资,总额28亿元人民币。相比较而言,车企这样的制造业企业更偏好自研,这主要源于两点:一是供应链优势,车企长期与电机等核心零部件供应商合作,体系成熟;二是天然的应用场景优势,车企自有空间和工厂可以为机器人提供数据学习环境,并能内部消化部分产能。比如,比亚迪2024年年底被曝自研代号为“尧舜禹”的人形机器人,广汽集团自研人形机器人“GoMate”,小鹏自研的Iron人形机器人在2025年年初的车展亮相。那么,为什么在2025年大厂入局的趋势更加明显?“因为人形机器人已经走过早期的草莽阶段了”,一位投资人告诉中国商业科技新闻网,换句话说,当一项新技术经历了初步的可用性验证、走过混沌的探索期后,大厂会基于自身的落地场景需求开始系统性介入。这一观点与昆仲资本创始合伙人姚海波的判断不谋而合。2025年年初,他曾对中国商业科技新闻网表示,机器人行业“草莽时代”很快会结束,并表示“2025年是人形机器人最后的生存年,这一年可能会有一批机器人公司消失”,这背后是因为“现在大家都得讲生存故事了,就是到底怎么交作业。”在一个新技术出圈、进入全民关注的初期,外界对新鲜感和创新能力的容忍度较高;但容忍期过后,市场会转向关注创新能带来的真实价值,热度随之回落。而大厂,往往正是在这一从想象力转向价值验证的临界点,选择正式入局。仔细观察会发现,2025年,京东和美团几乎是布局人形机器人最活跃的两家大厂。根据IT桔子数据显示,京东在这一年出手6次,投出22.3亿人民币,投资的企业包括智元机器人、千寻智能、逐际动力、众擎机器人、RoboScience和帕西尼;而美团出手4次,投出19.38亿人民币,投资企业包括妙动科技、自变量机器人、它石智航和星海图。他们共同的特点是将机器人应用与自身的场景结合,但两家策略各有侧重,简单来说,美团是为了“解决自己业务中的问题”而做机器人,比如让外卖、买药、到店服务更高效、更省人力。而京东的做法不同,它更像是在搭建一个平台,把电商、供应链、大模型等各种资源整合起来,去推动整个生态发展,更讲求横向联动。那么,大厂已经入局,人形机器人正在加速脱离“草莽”阶段,寻找到有用的可落地的场景变得更加重要,这也会带动机器人零部件供应链端的繁荣,同时让诸如灵巧手的核心零部件攻坚变得急迫。灵巧手成人形机器人攻坚重地在京东、美团这样的强场景大厂眼中,配送与分拣是人形机器人落地的核心任务。曾在京东负责末端无人配送、现为灵初智能创始人的王启斌向中国商业科技新闻网提到,仅靠移动能力,机器人无法完成任务闭环——机器人需要学会“把东西放上去或拿下来”,而这些都需要机器人拥有操作能力。强调机器人操作能力,似乎也成为了行业企业的共识,在往期的世界机器人大会C展馆,充斥的多是各类工业机械臂,但WRC 2025的C馆呈现了琳琅满目的人形机器人零部件,其中灵巧手展台十分热闹:强脑科技BrainCo仿生灵巧手Revo 2,大小和成年女性手大小一般,整只手重量383g,握力50N,可以实现压力、摩擦力和受力方向等方面的感知。除了强脑科技,星动纪元、因时科技、灵心巧手、帕西尼等公司都带来了自家的灵巧手。(WRC2025上的各类灵巧手)然而,人形机器人拥有一双灵活可靠的手固然重要,但灵巧手想要变得“灵巧”要解决的是一个系统问题。想象一下让机器人去拧瓶盖——它需要精准判断瓶口位置(感知),手指必须有足够的自由度去适配瓶盖形状(机械结构),还要控制握力既能固定瓶盖又不至于捏碎瓶身(力控算法),同时动作要在合理的时间内完成(响应速度)。任何一个环节不到位,瓶盖都可能拧不动、拧坏,甚至掉在地上。主营灵巧手业务的企业因时科技工作人员说道,“精度,负载,反应速度,外观大小,自由度”都是难点。主攻灵巧手的具身智能公司源升智能创始人杨思成对中国商业科技新闻网表示,“在具身智能领域,所有跟手相关的工作基本都是最有挑战的,不论是本体,感知还是算法,并且灵巧手的难点从来不是单点的性能,而是既要又要还要”。而行业尚没有统一的路线方案可以完美解决灵巧手面临的系统性难题,一般来说,一个灵巧手系统包括驱动、传动和传感三个模块,每个模块又包含更多不同的路线方案。根据WRC 2025现场探访情况,灵巧手主要解决方案集中在电机齿轮直驱、电机连杆传动、电机腱绳传动等组合方式。马斯克的擎天柱Gen 2灵巧手采用的就是后者,腱绳传动的优势是可以减少结构体积,使得灵巧手更加小巧。如果将每个模块分开来看,灵巧手的路线发展有几个核心趋势:第一,在驱动模块上,灵巧手的主动自由度增加、欠驱动走向全驱动,欠驱动指的是一个驱动器可能控制多个关节或自由度,不是每个关节都能独立控制;主驱动则相反,每个关节或每个自由度都有一个独立的驱动器(电机/执行机构)直接控制;第二,在传动方案上,国内偏好连杆/齿轮刚性传动,国外偏好腱绳柔性方案;第三,在传感方案上,触觉传感方案的使用率较高。但目前灵巧手技术还处在探索阶段,WRC 2025上的灵巧手,大多数都还停留在Demo状态,它们就像前几年的人形机器人一样,被摆放在桌面上仅供观赏,并没有现场展示其灵活性,工作人员最多展现五指关节的摆动。而我们看到的大多数做固定、重复性操作的人形机器人,它们上半身的末端执行器使用的基本都是二指夹爪甚至铲盘。所以,正如“机器人到底是否需要做得像人形”的讨论一样,在机械手板块,也有着常见分歧:机械手到底需不需要做得像人手?是追求类人灵活性,还是优先满足成本与可靠性的实用需求。无论路线如何选择,灵巧手的突破仍是一场系统性攻坚战,而它的成熟与否,将直接决定人形机器人在更多真实场景中能否真正发挥价值。结语从WRC 2025的探展情况来看,人形机器人虽然正在迈向应用落地,但整体仍停留在单一技能的重复性操作层面,“泛化”依旧是一个遥远的目标。在所有应用场景中,娱乐功能反而走在最前面。加速进化和高擎机电在会场上踢足球,宇树G1机器人打拳,还有一些仿生人形机器人表演戏剧、写毛笔字。这类娱乐型能力的迭代速度,比叠衣服、端茶倒水等生活化场景来得更快。宇树科技创始人王兴兴在WRC 2025上谈到,用AI技术驱动机器人进行运动或表演,其实更容易落地。“这有点像早期的个人电脑——刚问世时甚至没有图形界面或文字处理功能,但它为开发者提供了平台,几年后随着软件生态的发展,普通用户才真正用得起来。”在他看来,当人形机器人技术还处于初期阶段,企业会优先布局表演、格斗等更容易落地的业务。“就像手机一样,虽然它能处理工作事务,但大多数人的使用时间其实花在娱乐上。”灵初智能创始人王启斌认为,当前机器人行业处于Gartner曲线的波峰期。而这一期间,正是企业讲故事、扩大规模的窗口期,所以,上市反而成了少数公司获取长期资金的现实选择,智元机器人已经完成上市,宇树科技也在寻求上市机会。不过,曾在Figure负责过机器人大脑、现源络科技创始人连文昭对中国商业科技新闻网表示,人形机器人的热度中也夹杂着泡沫:“你会发现今天可能有几百家企业在这个场馆里,热度很高。从去年到今年也出现了很多高估值的融资事件,整体感觉这个市场估值的奇异点比技术发展的奇异点来得早了很多,希望大家能够调整一下预期,让它更合理一些。”如果你想深入了解具身智能,欢迎扫码加入ima知识库「人形机器人、具身智能资料库」,本文作者为该知识库主理人。推荐阅读:苹果手机用了15年才“通用”,机器人还要多久?机器人跑马拉松,跑“断腿”的是工程师昆仲资本姚海波:2025年,机器人赛道将淘汰一批“机会主义者”
...
职场父母的自述:我把育儿的心累,交给了ChatGPT
对于很多父母来说,面对繁忙和喧嚣的生活,育儿已不再是简单的家庭任务,而是一场持续不断的“高压挑战”。父母们在繁重的工作和生活日常奔波,经常感到焦虑和疲于应对。据美国俄亥俄州立大学 (Ohio State University) 的一项研究,57%的美国父母饱受育儿倦怠的困扰,心理、身体和情感的疲惫如影随形。在这样的背景下,人工智能正以一种意想不到的方式悄然进入家庭,成为许多父母的“共同育儿者”。以ChatGPT为代表的AI工具,不仅能规划膳食、优化睡前程序,还能提供无评判的情感支持,减轻父母的心理负担。近日,瑞士苏黎世33岁的品牌策略师丽莲·施密特 (Lilian Schmidt) 称ChatGPT为“第二个妈妈”,她的故事在TikTok上引发了超过2.1万名父母的共鸣,掀起了一场"AI辅助育儿"的热潮。然而,这种新兴技术并非没有争议:它既是解放者,也可能带来风险,从不准确的建议到隐私隐患,再到对人际关系的潜在冲击。根据Axios的最新报道,ChatGPT每天接收到25亿次用户输入或请求,用户们每天都在探索AI如何融入他们的日常生活——从心理治疗师到造型师,再到共同育儿伙伴。实际上,父母群体比其他成年人更容易感受到高压力。美国公共卫生署署长在2025年初也曾表示:目前,为人父母的压力已经成为一场公共健康危机。生活帮手:AI的日常魔法施密特的做法并非个例,而是一个正在兴起的趋势:AI正悄然成为现代家庭的“共同育儿者”。她在TikTok上分享了如何训练ChatGPT制作适合3岁女儿的营养餐计划、组织生日派对、规划家庭假期,甚至优化睡前程序,吸引了上万名追随者效仿。丽莲·施密特 (Lilian Schmidt) 社交媒体内容示例施密特把ChatGPT塑造成一个多面手:有时是幼儿教练,有时是营养师。她回忆道,过去四年的睡前时间总是泪水与挣扎的战场,直到ChatGPT建议让女儿在床上跳跃以释放多余能量。“从那以后,没有争斗,没有泪水,她在5到10分钟内就能入睡,”她说。这种简单而有效的策略,让她重新找回了夜晚的宁静。其他父母也在AI的帮助下发现了类似的解放。芝加哥的艾丽西亚·罗宾逊 (Alicia Robinson) 将ChatGPT视为“永不休息的育儿助手”,用它来撰写教师邮件、规划派对、创作睡前故事。德克萨斯州的奥利维娅·弗伦奇 (Olivia French) 则依靠AI为三个孩子(13岁、10岁和8岁)规划夏令营午餐和家庭膳食,称其为“不可或缺的工具”。OpenAI消费者沟通负责人莉亚·安妮丝 (Leah Anise) 指出,通过AI工具可以帮助家长简化和制定一些日常任务,成为父母的得力助手。情感支持:无评判的倾诉空间AI的角色远不止于后勤管理。在施密特最脆弱的时刻,当女儿的发脾气让她心烦意乱,或下午5点的忙碌让她不堪重负时,ChatGPT成为了一个无评判的倾诉对象。“有时候教育孩子让我觉得心烦时,我会向ChatGPT倾诉。它理解我,为我思考,提供具体解决方案”,她说。施密特曾让AI扮演“幼儿治疗师”,探索女儿睡前抗拒的原因,AI不仅提供了跳跃的建议,还让她感到被倾听和支持。她描述了一次特别艰难的夜晚:女儿因过度兴奋而拒绝睡觉,施密特向ChatGPT倾诉自己的挫败感,AI建议她尝试一个简单的呼吸练习,并在睡前引入一个简短的互动游戏,如“数星星”。这一策略不仅安抚了女儿,也让她自己平静下来。她强调,AI并非心理治疗的替代品,但它确实为她提供了一个临时的情感避风港,帮助她在育儿的混乱中找到平衡。类似的经历在其他父母中也有共鸣。Crash Out Diary应用的创始人卡里玛·威廉姆斯 (Karima Williams)利用Anthropic的Claude宣泄育儿中的压力、羞愧或挫败感。她开发了一个交互式AI项目,允许父母选择与自己情绪匹配的化身(如愤怒或疲惫),倾诉后获得冷静建议或放松活动,如呼吸练习或快速游戏。威廉姆斯分享说:“有一次,我因为孩子在学校的行为问题而感到无助,向Claude倾诉后,它建议我写一封温和的邮件给老师,并提供了一个模板。这让我感到被支持,也让我更有信心处理问题”。袁·汤普森把ChatGPT比作朋友,但表示应当清楚AI的局限性而来自渥太华的袁·汤普森...
当AI学会编程,最焦虑的是高级工程师
头图由AI生成文|奕萱编辑|郑可君在人工智能技术浪潮的席卷下,AI在编程领域的应用正以令人目眩的速度演进,深刻改变着软件开发行业的固有格局。一个反直觉的现实正在浮现:尽管普遍的预言是AI将率先取代初级工程师,但最先感受到深刻焦虑的,却是那些大厂的高级工程师。焦虑的背后,并非简单的技能迭代,而是人与AI、乃至人与组织系统之间的复杂博弈。“王”位难坐的高级工程师每日早班地铁上,赵凌打开某App,总会不断蹦出有关AI的最新消息。“下面是10条颠覆生产力的提示词和工作流,最后一条将颠覆你的认知。”“vibe coding了一个SaaS,只花了几个小时,上线后ARR已经来到了50W。”赵凌心里一惊。人群之中摇晃,赵凌在自己好不容易挤上的地铁中努力站稳脚跟,却总觉得自己被另一列车远远抛下了。2024年,是上海某互联网公司高级算法工程师赵凌从业13 年以来最焦虑的一年。AI 的发展从线性期,突然来到了非线性期,尽管赵凌一直关注大模型的发展,但依旧猝不及防。晚上10点下班,11点多到家,再花半小时看每天最新的论文......工作第13年,赵凌的业余学习强度达到最高峰。AI的变化日新月异,以前几个月才会有几篇轰动性的、有价值的论文,但去年一周可能就有4、5篇要看。技术群口口相传,任何微小的技术进展总能迅速传遍计算机圈。“大家都在说某篇论文很有价值,自己不看的话总觉得被别人落下。”焦虑之中,赵凌始终明确一点——越去适应AI编程技术路线的跃迁、变化,就意味着在未来拥有更多竞争的优势。2022年,ChatGPT横空出世,展现了AI编程的能力,赵凌开始试水使用。从最初的集成开发环境(IDE)中的代码自动补全功能,到2023年年中至2024年年底能够辅助编写特定代码片段,再到2024年年底之后AI开始具备全项目编写的能力。自从用了自动化程度较高的 IDE 之后,赵凌日常工作中与代码相关的工作,都由AI负责写基础代码。大模型学习过非常多的代码库,省去了赵凌很多查开源代码库的时间,很快提供一个能用的雏形代码,他只要做审核、微调。竞争很快进入了深水区——如何更好地用AI编程。AI编程提效程度取决于,如何有效使用AI的认知、技巧。“有的人一天用十分钟,可能比别人一天用两小时的产出还高。”赵凌意识到,程序员的角色正在从专注于编码,转变为“协调者”(coordinator)和“监督者”(supervisor),需要从更高的角度去验证AI生成的内容并更好地应用和组合代码。这种转变给赵凌带来了主动适应新的能力要求。首先是需求表达与模型理解。为更好地表达需求,让大模型听懂,赵凌总结出个人使用经验,直接用到项目实践上,验证方法是否稳定有效。其次是验证与鉴定的能力,“验证”(verify),即有能力鉴定AI完成工作的质量。即使是AI生成的代码,也需要工程师具备原有工程经验和对AI作业进行debug的能力,并对实现技术栈和整体方向有认知,以提升交付结果和效率。虽然要学习和吸收的知识很多,但赵凌通过使用AI工具提升学习效率,用AI辅助读论文,与大模型交流技术和商业想法,并快速得到验证,省去了大量的调研时间。然而,适应过程中,新的焦虑浮现了。AI对于初、中级工程师的替代是一个必然。身为高级工程师的他,知道能够用 AI 创造的价值,将会比之前多一个量级。“手里拿了一个原子弹,却不知道要做什么。”赵凌害怕稍有不慎就会与机会失之交臂。选择在红海竞争还是去蓝海竞争,这是一场豪赌。35岁,赵凌重新面临职业生涯的深层焦虑与多重博弈。AI 帮助完成工作后,赵凌有更多时间去探索自己的发展方向。但一切都需要他微妙把控:用AI协助完成工作,保证工作交付达到老板期待的平均质量,再利用AI省出的时间研读论文。与此同时,工作的交付不能太快,否则老板会觉得自己“没活干”。不仅与老板博弈,同事之间也陷入了微妙的氛围。AI的普惠性使得初、中级工程师能够快速提升能力,打破了高级工程师曾经凭借经验和时间积累形成的壁垒,成为赵凌的潜在竞争对手。这使得赵凌在面对一些新人时会倾向于保留经验,不会主动去跟别人聊到使用AI提效的方法,除非对方来问。“信息差本来就会一直存在”,但当大家手上的牌趋于一致,竞争获胜的关键在于“用工具提效和实现自己的想法”。代码新人成为进阶螺丝钉大师已经用AI创造新的生产力,最尴尬的是卡在这个节骨眼上毕业的人。本科期间,计算机科学专业的罗映萱最苦恼的就是给自己写的代码debug。图书馆动辄枯坐一整天,最后发现只是少加了一个引号,这样的重复常常让她崩溃。等到研究生阶段,罗映萱发现AI不仅能写代码,还能辅助debug,直接定位报错类型和范围。罗映萱很快尝到了AI编程的甜头,开始借助AI提效。原来需要花一个月才能弄清楚的代码,现在借助AI一周就能完全弄明白。AI 本身让工作更快达成的结果,也同时带来了无限的新工作。上一段实习中,罗映萱利用AI编程提效,不断完成交付,但三个月下来自己什么都没学到,沦为“自动化螺丝钉”。彼时的她恍然大悟——原来AI提的是公司的效。虽然使用AI编程,但罗映萱并不注重提升用AI编程的能力。罗映萱的常用AI工具是元宝、豆包、通义等,这些足以满足实习岗位的工作需求。目前,罗映萱并没有积极接触Cursor、Claude等全球顶尖的 AI编程工具,也并不主动关注AI领域的最新消息。与罗映萱不同,某大厂算法组实习生潘岩强除了少数思路简单但操作繁琐的代码外,并不会用AI辅助编程。她所在的海外大学的本科教育不允许学生使用AI辅助完成编程作业,这一习惯被她延续到了实习岗位上。潘岩强也不主动获取AI编程领域最新资讯。“高校里禁止用AI工具编程,所以我了解它根本就没有意义。”虽然组内的正式员工都会使用AI辅助,技术方面成长问题优先级高于未来趋势和个人规划判断。现在对她来说,学习专业知识比学习如何掌握 AI 编程的工具能力更重要。潘岩强察觉到,就业环境留给代码小白的成长时间缩短,工作节奏在变快,难度也更高。 AI 首先取代的是初级工程师,迫使刚入行的新人需要在更短的时间内迈向中级,以至于自己不被取代。当新人在用AI辅助还是打磨基础之间徘徊时,面对的是一个既要又要的招聘体系。某互联网大厂的前端开发组组长孔杰在面试新人或实习生的时候,将使用AI编程的能力作为一个优先的加分项,技术能力依旧是硬指标。“我希望他们大部分代码都在用 AI 来写了,但是我又希望他们本身的代码技能还是在的。”孔杰并不会要求面试者现场使用AI写代码,而是会通过聊天的方式判断面试者用什么工具写代码,代码的 AI 占有率等,也会让他们举例说明和AI协同解决的具体问题。入职面谈的时候孔杰会明确表示,组内已经进化到了全新的编程风格,跟“古法编程”划清界限,希望新人也能拥抱最好的工具,提升自己的效率。孔杰的要求是出于追逐效率的考量。“大家都在用,如果他不用,整体的交付速度就一定会慢。”但新人的成长发展,依然需要系统的专业训练。“定焦One”此前报道中曾将程序员分为初、中、高级,主要区别在于参与开发产品环节的深浅与掌握技术原理的数量。初级程序员通常只负责开发简单功能,如系统的增删改查类内容;中级程序员需要掌握大部分代码技术原理,负责相对简单的功能开发;高级程序员负责整个系统的技术选型、框架搭建、核心算法设计,并承担核心模块的功能开发,需要对各种代码技术原理非常了解,同时具备大型项目经验与团队沟通协调能力。企业招聘初级岗位的核心目的是为了实现团队内不同级别生产力的合理分配。在过去,初级工程师负责处理那些定义清晰、风险较低、重复性强的任务,这不仅是他们为团队贡献价值的方式,更是他们从实践中学习、逐步成长为高级工程师的必经之路。孔杰认为,“新手小白+AI”与“专业+AI”在效率和能力上存在巨大差异,纯粹依赖AI的新人,可能仍停留在没有系统架构认知的水平,不能成为一个专业的人。这意味着,新人需要与依赖AI的被动学习模式进行对抗,进行刻意练习,在工作中主动放慢速度,留出时间自己写代码,或者阅读分析AI的代码,提升系统架构能力。在变革中的程序员定义在最新一段互联网大厂的算法岗位实习中,虽然仍是先由AI编程,但罗映萱有意识让自己慢下来学习。AI已成为职场中除传统导师(mentor)之外的辅助导师,帮助罗映萱更好地理解和编写代码。她利用AI分析源码、解释模块功能,认为AI能够清晰阐明“优秀案例代码”中变量定义的作用和模块功能。此外,遇到问题时,她会优先咨询AI,因为AI能提供及时且高效的回复。编写代码仅是程序员工作的一部分。以往,高级工程师们依靠分工从这些琐碎的任务中解放出来,专注于更复杂的系统设计、性能优化和难题攻关等工作。如今,AI为罗映萱这样的新人承担了基础和重复性编码工作,让罗映萱能更快地接触和专注于项目的优化、管理、规划以及需求对接等更复杂的环节,以目标导向完成需求。这让她踏上向中级工程师成长的快车道。借助AI工具,罗映萱也能有效提升系统架构能力。过去需要查找大量资料才能设计系统架构,现在AI可以直接提供demo,不懂的问题也能直接提问AI,这节省了查找资料的时间,让她将更多精力投入到有效学习中。原本需要两三天才能学会的内容,现在可能只需半天。然而,面对快速变化,罗映萱对职业规划感到迷茫,只能看清短期目标——实习转正。她不确定未来的中级工程师需要具备哪些能力,以及如何进行长远规划。尽管就业压力促使她专注于眼前的“饭碗”,但孔杰建议,程序员不应将自己局限于当前岗位,而应跳出当前职位,思考更长远的职业规划。孔杰所在的团队从2023年起便大力推行AI编程,要求团队成员最大限度地利用AI提升效率,甚至要求开通AI会员。公司初期会补贴会员费用,之后大家开始自费购买。“对个人来讲提效很明显,不买你就会落后。”孔杰认为,每月20美元、每年240美元的会员费,投入产出比极高。从6月底开始,团队周会的最后环节会专门安排成员分享AI编程心得、工具使用方法及实践案例,并讨论如何改进未达到预期效果的做法。孔杰观察到,程序员应对未来风险的方式有两种:一是深入专业领域垂直深耕;二是善用AI,将自己发展成一个“小的多面手”。他认为,最专业的架构师结合AI的产出是惊人的,远非“小白+AI”所能比拟。然而,未来可能不再需要那么多高级专业架构师。“大量工作还是停留在应用层,这些简单的需求由非专业人士配合AI即可解决。”未来的程序员可以将技能聚焦于如何与AI实现高效、高质量的协同,尤其是在应用输出层面。这种协同能力可以根据个人兴趣泛化到其他行业,如产品、运营、宣发等。随着AI编程的普及,“小的超级个体”将成为主流。这意味着当前细分的后端、前端、程序员、产品经理等职位界限将模糊 ,出现能兼顾产品、设计、编程等多重职责的人才需求。他们无需在某一领域深度专业训练,但需对各行业有一定认知,并辅以AI助手。虽然中低端职位需求将减少,但从长远看,若AI能带来消费的量级跃迁,将催生新的需求和岗位,原有程序员群体将涌向这些新领域 ,这是历史和科技发展的必然趋势。然而,新需求可通过非专业人士+AI实现自给自足,其红利未必会直接惠及传统的程序员。*文中人物均为化名,图片均由AI生成AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。推荐阅读斯坦福最新研究:硅谷AI创业潮,是一场大型的资源错配奥特曼AI Ascent闭门会最新专访:2025,AI智能体正加速登场2025,中国芯片“第一战”打响
...
对话凯文·凯利:不必过多担忧,AI变强后,人类只需专注于“玩”
文|博阳编辑|郑可君当人工智能以颠覆性姿态重构人类文明时,一个无法回避的问题浮出水面:我们究竟在创造怎样的未来?若要寻找这个时代的科技先知来探讨这个问题,凯文·凯利(Kevin Kelly)的名字必然位列其中。这位《连线》杂志创始主编、《失控》作者,早在1994年互联网方兴未艾之际,便预言了云计算、物联网和虚拟现实的技术趋势。他的“技术元素”理论重构了硅谷对技术本质的认知,而“一千个铁杆粉丝”法则至今仍是创作者经济的核心指导思想之一。如今,在其新作《2049:未来10000天的可能》中,他将目光投向2049年——一个被AI彻底重塑的世界。凯利给出的答案依然充满预言性的洞见。他让我们忘掉AGI和大一统模型的存在,转而拥抱像动物园一样千奇百怪的“异类智能”AI。他不相信AI将是凌驾于人类之上的神明,而是像外星人一样与我们共存的"他者"。在他描绘的2049年,我们将生活在一个“镜像世界”中。一个增强版的“元宇宙”,叠加在现实之上的虚拟维度。在那里,人类与AI在三维空间中相遇、协作、创造。在这个世界中,人类的价值不会因AI而贬值,反而会因其稀缺性而倍增。这份乌托邦式的愿景是否经得起现实检验?回望1990年代,凯利曾坚信互联网会带来去中心化的民主盛世,但现实却演变为算法垄断与信息战的血腥战场。而今天,当我们审视这个被算法主宰、被巨头垄断、充斥着虚假信息的互联网时,不得不承认现实与理想之间存在着巨大的鸿沟。因此,当凯利再次描绘一个由AI主导的美好未来时,我们既需要他的远见照亮前路,更需以清醒之姿追问:当智能眼镜记录一切时,人是否真的可以为了便利放弃所有的隐私?当AI助理接管人类时,平等的主张是否还有意义?这些问题的答案,将决定2049年是“酷中国”的崛起,还是新一轮失控的开端。重新思考AI从“超级智能”到“异类智能”中国商业科技新闻网:KK你好!在我们2024年的对话中,你曾提到ChatGPT和AI图像生成技术带来的颠覆性体验。今年呢,是否有任何新的AI模型或智能体让你感到惊讶?Kevin Kelly:没有什么令人震惊的新产品,新模型似乎没有那么革命性。很多人都会有同感。这可能表明扩大规模正变得越来越困难。自我们上次对话以来,我对当前的模型印象深刻,但并不惊讶。这也包括中国的模型,它们非常出色,但与美国的模型相比仍没有太大区别。中国商业科技新闻网:当下的模型能通往AGI吗,还是说需要更多的东西?Kevin Kelly:我认为还需要更多。但这只是我的直觉,也可能会错。很多聪明的投资者相信,仅靠扩大现有模型的规模就能实现AGI,基于我过去的经验,我对此表示怀疑。在写《失控》和《新经济新法则》时,我试图说明的是,我们无法用一种完全自下而上、完全去中心化、完全扁平化的东西走完全程。而这些大语言模型就是这样的,没有层级,所有神经元都一样。所以,我怀疑通过扩大这种扁平模型能否实现AGI。这是一个绝佳的起点,但无法带领我们到达终点。智能不是单一元素,而是由几十种不同元素构成的复杂化合物。我们可能需要新的术语去描述智能。我的基本前提是,我们普通人和研究它的科学家对智能到底是什么一无所知。就像1700年代发现电和元素时一样,当时最聪明的人对它有各种理论,但最终都错了。我们正处于这个阶段——对智能毫无头绪。中国商业科技新闻网:这个新术语是你在书中提到的“异类智能”(Alien Intelligence)吗?你为何认为用它来描述未来25年的AI,比AGI或ASI更准确?Kevin Kelly:“异类智能”对我来说是一个思考AI的隐喻。把它想象成来自另一个星球的外星人。它们可能有感知,有意识,但关键是它们是不同的,而不是更高级的。中国商业科技新闻网:它和通用人工智能(AGI)或人工超级智能(ASI)有什么区别?Kevin Kelly:“超级”(Super)这个词暗示着在人类之上。而我说的是,它不在我们之上或之下,而是“他者”(Other)。就像《星际迷航》里的斯波克,它是外星智能,但它比柯克船长更优越吗?不,它只是不一样而已。智能不是一个向上的阶梯,“超级AI”这种说法是错误的隐喻。它们是不同的物种,是异类的,不在我们之上。中国商业科技新闻网:按照这个逻辑,对我们人类来说,其它动物也是一种异类智能,因为我们无法理解它们的想法。但我们历史上一直认为自己比动物和植物更高级。Kevin Kelly:是的,这源于我们的进化,我们可能无意中灭绝了其他智慧物种。但事实上,我们甚至不知道鲸鱼是否比我们更聪明,比如你的计算器在算术上就比你聪明。问题在于,我们本能地想把事物放在一个阶梯上,但智能并非如此,它不是单一维度,而是多维度的广阔空间。当我们开始绘制动物智能和机器智能的图谱时,会发现我们的智能只是处于某个边缘。目前,缺少一门关于“可能心智的分类学”(taxonomy of possible minds)。我们需要建立一个分类学,能够标示出动物心智(狗、鲸鱼、黑猩猩等)、人类心智以及各种AI的位置。认为我们比长颈鹿更优越的想法是没有意义的。同样,我们对“超级智能”没有任何定义或度量,对它的无知是巨大的。我认为这个词没有帮助,到2049年,我们甚至不会再使用AGI或ASI了。中国商业科技新闻网:但似乎学界也有不同的想法。比如辛顿在最近的发言中说,AI最终能做我们能做的一切,并且做得更好。Kevin Kelly:万物皆有取舍。你不可能制造一台在所有方面都优于其他所有机器的机器。为了让某样东西更快,必然要在工程上做出牺牲,我们无法同时优化灵活性、速度、成本和能效,这是工程学的真理。智能也是如此,无法在所有维度上都进行优化。中国商业科技新闻网:所以你才认为AGI无法实现,或者一个基础大模型无法做所有事?Kevin Kelly:就像我们和蚂蚁。有很多事是蚂蚁能做而我们做不到的,比如钻进小洞、闻到我们闻不到的气味。我们可能会说我们不在乎,但蚂蚁在乎。你不能说我们在所有方面都优于蚂蚁。我们在很多方面优于它们,但不是所有方面。中国商业科技新闻网:你描述的这种“异类智能”,似乎是会专注于不同的事情,而不是一个能做所有事的通用大模型。这也与谷歌、OpenAI等公司的发展方向不同。他们正试图通过微调和强化学习,让一个基础模型能快速掌握新技能,而不需要专门的小模型。Kevin Kelly:是的,如我所说,世界上最聪明的人和最大的资本都在赌这条路,它完全有可能成功。但是,我对此持怀疑态度。所以,我们必须考虑两种情况。提出不同场景的目的不是为了预测未来,而是为了让我们对未来不感到意外。你需要预演,如果萨姆·奥特曼的版本成功了,我作为个人、公司或国家,是否准备好吸收其益处?如果他不正确,我们迎来的是一个更加去中心化、不需要大数据的AI世界,就像DeepSeek正在做的那样,我也不想感到意外,我要准备好如何充分利用它。“镜像世界”是下一代互联网的新平台中国商业科技新闻网:现在我们来谈谈你对2049年AI世界的描述。你提到了“镜像世界”(Mirror World)这个新概念,并将其定义为下一代互联网。它到底是什么?与我们现在所说的“元宇宙”(Metaverse)有何根本不同?Kevin Kelly:它有点像虚拟现实(VR),像电影《头号玩家》那样,你可以进入一个非常逼真的三维空间并与之互动,但这只是其中一小部分。第二个更重要的部分是,我们是在真实世界之上叠加了一个虚拟世界,这个虚拟世界是真实世界的孪生或镜像。比如现在我们对话,我戴上眼镜会看到你的一个三维化身(Avatar)坐在我旁边的沙发上,我会确信你就在那里。这个化身是在我的真实房间里,看起来像一个全息图。你也可以通过它看到我房间的样子。第三个层面是所谓的“空间智能”。在这个虚拟世界里,虚拟的球会像真球一样弹跳,液体会遵循同样的物理定律,有远近、上下、左右。这种空间维度是我们目前不具备的。它能让你通过一句话生成一个具备空间逻辑的完整三维世界,理解物体的前后遮挡关系。第四个层面是,当汽车和机器人在移动时,比如一辆Waymo无人车行驶在路上,它所“看到”的世界就是镜像世界。它在自己的“脑海”中创建了一个虚拟表征,这个表征就是镜像世界。可以说,我们将会在镜像世界中与机器人和AI相遇。在这个镜像世界里,你可以戴上一副智能眼镜,看到你的房间,并要求叠加不同的信息层。比如让它显示所有物体的材质,或者在进入房间的人头顶上显示他们的名字。但这只是最容易描述的版本。所有这些都只有在廉价、普及的AI支持下才可能实现。没有AI,就没有增强现实的镜像世界。中国商业科技新闻网:我理解你说的第三和第四层面的镜像世界,即对物理世界的完全复刻,必须基于能理解物理世界的AI模型。但前两个层面,Meta在AI时代之前就已经在尝试了。为什么镜像世界在你的未来构想中如此重要?Kevin Kelly:这是一个终点,是不可避免的。现在我们用全世界的视频来数字化和训练AI,这是在用“过去”的数据。当所有已记录的数据都用完后,我们唯一剩下的就是用“现在”——实时发生的真实世界来喂养AI。一旦你这么做,你就拥有了镜像世界。因为AI在观察真实世界时,必须对其进行处理、渲染和想象,这就构成了镜像世界。然后我们便可以进入其中,进行社交、培训、导航等。我们在那里与它们相遇,并将其用于娱乐、协作等我们甚至还没想到的事情。我认为娱乐只是其中一小部分,其主要用途是作为协作的工具。我断言,在所有社交媒体中,镜像世界将是最具社交性的。人们会愿意花数小时与其他人的虚拟化身待在一起。它还能让我们发明新的协作工具,实现前所未有的规模协作,比如让一百万人在同一个虚拟公司世界里实时合作一个项目,这是在现实空间里无法做到的。中国商业科技新闻网:但现在互联网本身,比如在微信里,一个500人的群也可以一起聊天。沟通的规模已经被拓宽了。Kevin Kelly:是的,但我们想变得更宽。中国商业科技新闻网:但这怎么实现?在交流中,人脑接收和处理信息的带宽非常有限。Kevin Kelly:问题不在于接收更多信息,而在于在正确的时间获得正确、最少或最佳的信息。这关乎智能。一个能让百万人协作的系统,必须能很好地“阅读”我,理解我的才能、情绪等各种情况,以进行优化匹配。这不是发发邮件或短信就能解决的。想象一下,你要和一个将与你共事一生的人合作,你需要了解他的一切,现在再把这个需求乘以一百万。中国商业科技新闻网:这个镜像世界不仅仅是把我们的声音或文字加上虚拟形象,而是以一种全新的协作方式。它需要AI来筛选,找到合适的话题和合作者。Kevin Kelly:没错。它是一个协作、社交和创造的平台。我曾提出“1000个铁杆粉丝”理论,即每个人都可以通过为1000个粉丝创作来谋生。难点不在于创作,而在于找到你的1000个铁杆粉丝,并让他们找到你。AI可以帮我们解决这个问题。中国商业科技新闻网:这听起来更像是一个新版的推荐系统。Kevin Kelly:是的,匹配就像推荐,但这只是其中一部分。它也是一个能让你更高效、更有创造力的平台。戴上眼镜,我所看的一切都会被监测,系统会知道我盯着什么看了多久,了解我的兴趣和厌倦,知道我何时最高效。它也是一种自我认知和自我提升的平台。AI时代的社会:垄断、工作与人性的价值中国商业科技新闻网:我们来谈谈AI将如何影响世界。你提到镜像世界可能会由一个超级公司主导。为什么你会这样认为?Kevin Kelly:会有少数几家,形成寡头垄断,一两家或三家。就像Windows和Mac,会有一两个巨头。这遵循网络效应——越大越好,越好越大。AI也是如此,尽管现在AI还不能通过用户使用来学习,但一旦它们可以,我们就会看到这个效应。最大的会变得更大,因为它们越大,学得越好。所以这种动态不会改变,会一直持续到2049年。我认为这是一种“自然垄断”。所有这样的通信系统都有这种赢家通吃的动态。但这种自然垄断的生命周期很短。它们崛起很快,但主导地位消失得也很快。因为新的平台会到来。比如谷歌搜索80%的份额,可能在两年内就消失了,因为大家都会直接问AI。OpenAI可能取代谷歌。现在,如果你有了AI,主导者可能不会是谷歌或Facebook,而是一家像OpenAI、Anthropic或DeepSeek这样的新兴公司。然后,当镜像世界到来时,它们的主导地位也会被一个更大的新平台所取代。中国商业科技新闻网:让我们从公司这个层面转向人。你在书中说人类拥有AI不具备的“大写的创造力”(Capital C creativity)。为什么只有人类拥有这种能力?Kevin...
对话灵初智能CEO王启斌:关于机器人技术路线选择、VLA能力突围关键点
文|小燕编辑|郑可君7月28日,在2025世界人工智能大会(WAIC 2025)上,出现了机器人和人类打麻将的场景。在麻将桌上,人类抽出一张牌,啪地一声放在桌上:“四万!” 机器人迅速运算,判断此时“杠”是否对自己有利;若判断有利,便需识别眼前能构成“杠”的牌张。经过短暂推理,它果断作出决策:“杠!”就这样,机器人与人类连续对战了30分钟。支撑这一过程的,是机器人所搭载的端到端技术。参与打牌的机器人采用的是灵初智能Psi R1模型,具备基于“Chain of Action Thought(CoAT)”框架的自主推理能力,能够在开放环境中完成复杂决策。如果说人形机器人的上半场比拼的是本体结构,那么下半场比拼的就是“智慧”——即具身模型的能力。IT桔子数据显示,自2025年初以来,已有62家人形机器人企业获得总计281.65亿人民币融资;其中有45家企业研究具身模型,获得融资总额为272.7亿人民币,这类企业除了研发机器人本体,也聚焦于VLA技术的研发。然而,目前VLA领域尚不标准化:缺乏统一评估指标,且训练所需的高质量数据稀缺且成本高昂,整个行业仍处于技术路线探索期。加州大学伯克利分校电子工程与计算机科学系的教授 Jitendra Malik 曾将机器人核心技术模块分为三大方向:移动、导航和操作。“前两类技术经过多年发展,已经比较成熟,很多公司也做出了工程化落地”,王启斌表示,“但操作能力至今仍是难点——它不仅需要机器人理解复杂环境,还要做出灵巧、稳定的动作配合。”这也是为什么VLA正成为行业关注的焦点,王启斌认为,想让机器人不只是“动起来”,而是“动得对”,关键要依靠VLA能力——即以感知、语言、动作为一体的端到端系统。而判断VLA是否做得好的核心标准,是看其是否具备让机器人完成“长程任务”的能力,以及是否具备类人的灵巧操作能力。中国商业科技新闻网《AI未来指北》系列围绕VLA技术路径、数据策略与硬件架构,对话灵初智能创始人兼CEO王启斌,灵初智能成立于2024年,目前共获得两轮数亿元融资,投资方包括高瓴创投、蓝驰创投等机构。在创办灵初智能之前,王启斌先后在云迹科技和京东机器人工作,主要负责研发酒店配送机器人和物流配送机器人,在这两段经历中,王启斌意识到,相比较于“移动能力”,机器人的“操作能力”更具备实质意义。以下为腾讯科技对话王启斌核心内容:1、机器人有三类关键能力模块:移动能力、导航能力与操作能力。前两类已趋近成熟,操作能力挑战更大,但商业价值更高,这也成为灵初智能创始人王启斌所选择的方向。2、打造一台完整的机器人核心要素是两个方面:软件能力和硬件能力。从理想角度来看,机器人的软件能力主要指的是VLA能力,分为算法、算力和数据;硬件指的就是机器人的本体。3、在软件层面,判断VLA做得好不好的核心标准,是评估其能否在复杂环境中完成长程任务,并具备灵巧、类人的操作能力。4、在硬件层面,人形机器人天然会设定一个很高的公众期待,而实际上目前的技术能力与这种期待之间存在显著差距,“双足”并非最优解。机器人技术路线选择逻辑:操作能力是下一阶段关键中国商业科技新闻网:从早年的云迹科技、到后来在京东的工作,是什么契机促使你在2024年选择创业,并进入机器人这个赛道?王启斌:其实这是一个非常自然的过程。2018年,我在云迹科技开始做配送机器人。此后,在京东的三年多时间里,我主要负责末端的无人配送。配送这件事可以从两个技术维度来看:一是行走能力,比如四足、双足等移动能力;二是操作能力,即机器人实际执行任务的能力。我当时的最大体会是:单靠移动能力,机器人无法实现任务闭环。人最终要到达某个地点,并完成具体操作,比如把东西放上去或拿下来,而这些都需要操作能力。在实际工作中,我深刻地意识到,只有将操作能力纳入系统,机器人才能真正完成完整任务。这种技术判断和实践积累,使我始终有动力去推动这一方向,而市场本身对这一能力也有很强的需求。到了2022年底,ChatGPT的出现引发了整个AI行业对“机器人是否会迎来新一波浪潮”的讨论。我看到了这个技术拐点,于是在2024年决定创业,聚焦在操作能力方向。中国商业科技新闻网:在我们观察来看,目前很多“出圈”的机器人更多展示的是下半身的运动能力,比如在马拉松比赛上跑步的机器人,而你们从一开始就专注在操作能力上。除了过去的经验,还有哪些思考促使你选择这样一个切入点?王启斌:我从2018年起就深入参与机器人行业,并非常清楚地感受到操作能力的重要性。技术发展到一定程度,往往会从突破阶段迈入产品转化阶段。而在操作能力方向,我们已经看到了明显的技术进展,现在正是进入这个领域的最佳时机。2022年,我们与北京大学共建了联合实验室,启动了相关课题的研究。直到2024年,我们才开始将这些研究成果工程化,并推动商业化落地。从学术角度来看,加州大学伯克利分校电子工程与计算机科学系的教授 Jitendra Malik 曾将机器人核心技术模块分为三大方向:第一类是移动(Locomotion),也就是四足、双足的行走能力,近年来这方面确实取得了显著进展;第二类是导航(Navigation),我过去也做过相关项目,包括室内集群和室外路径导航;这两类能力目前基本已具备工程可用性。我们现在所做的,是第三类——操作能力(Manipulation)。这是一个新的发力点,我们并不是和其他企业竞争同一个方向,而是在不同的技术维度上展开探索。操作能力无疑是当前机器人技术中最具挑战性、同时也最具商业潜力的一部分,因此我们选择聚焦这一领域,并认为它将是下一阶段技术演进的关键所在。其中,“移动”能力的突破最早可以追溯到2000年前后,而真正进入快速发展是在2019年之后,主要得益于三个“加速器”:第一,硬件开源,MIT的Cheetah项目在2019年开源了驱动器和关键部件;第二,瑞士苏黎世联邦理工学院(ETH Zurich)在强化学习算法方面持续投入研究,在连续三年中发布了三篇具有重要影响力的论文,系统性地提出并完善了一套完整的“学习范式”,提出了从感知 → 决策 → 控制的整个训练流程如何用强化学习完成,并在实际机器人中实现了闭环;第三,是算力平台的支持,比如NVIDIA的DRL(Deep Reinforcement Learning)平台,让开发者能够在仿真环境中高效训练。这三大因素共同推动了移动能力的快速演进。做好机器人的两个关键:VLA和硬件能力中国商业科技新闻网:你已经详细讲述了机器人移动能力的演进要素,那么,打造一台完整机器人的核心要素有哪些?王启斌:其实主要是两个大的方面——软件能力和硬件能力。从理想角度来看,机器人的软件能力主要指的是VLA能力,分为算法、算力和数据;硬件指的就是机器人的本体。所以,综合来看,我们一般从四个核心要素来判断系统能力的构建:算法、算力、数据和硬件。但如今,算力已经不再是稀缺资源,只要有资金,GPU是可以买到的。真正需要关注的是其他三个问题:第一,算法是否已经出现稳定的架构?比如Transformer在大模型体系中的作用已经非常明确;第二,数据如何有效驱动算法迭代?不同阶段的数据需求是否被正确建模?第三,硬件方面,具身智能的本质在于“embody”——它不是纯粹的语言或视觉模型,而必须和物理世界紧密结合。最后,也是最重要的一点:如何把这些技术能力转化成产品,真正满足实际需求。在数据方面,我们目前主要使用仿真数据进行冷启动,后续会逐步引入真实数据。我们特别强调“混合数据”策略,这与训练大模型的流程是类似的——预训练、后训练和推理阶段所依赖的数据分布并不完全相同,单纯依赖仿真数据或真机数据都不是最优解。我们当前通过仿真环境训练操作技能,未来会采用数据手套等方式收集高质量的真实操作数据,既降低真机采集成本,又提升泛化能力。至于硬件,我们选择的是双轮双臂结构。这种结构在当前阶段可靠性高、成本低,而且已经可以满足我们的主要应用场景,因此我们暂时不考虑做人形机器人。(1)分层端到端架构:在语言、视觉基础上引入“动作”模态中国商业科技新闻网:灵初已经发布了哪些VLA模型?王启斌:我们目前已发布三个版本。2024年12月底,灵初发布了第一个版本 Psi R0,中间发布过Psi R0.5版本,最新版本是今年4月发布的 Psi R1,它展示了我们的麻将任务能力。这一版本是我们分层端到端架构下的最新成果,也是具备自学习能力的系统。中国商业科技新闻网:从行业来看,过去大多数融资项目集中在本体开发上,但从去年到今年,做具身模型、做端到端的创业公司明显增多。你怎么看端到端这条路线目前在行业中的实际发展阶段?王启斌:端到端的本质,是整个模型在训练阶段实现无损传播,最终可以直接落地执行,我们从去年就明确提出要做“分层端到端”架构。从目前情况来看,无论是Figure还是Pi等公司都在谈端到端。但早期Pi是纯粹的端到端架构,后续才加入分层,这说明在执行阶段,仍需要区分快脑和慢脑的能力结构。环境感知、理解与推理,这部分更多依赖大模型;而末端执行,比如手部操作,通常需要高频、复杂、低延迟的控制。因此,我们认为分层端到端更高效,能让每个模块在合适的频率下独立工作,提升整体性能。到了今年年初,不论是Figure的更新版本,还是Pi、NVIDIA等公司的模型,也基本形成了分层端到端的共识。但即便如此,行业仍面临操作能力训练的挑战。中国商业科技新闻网:那目前行业内在端到端架构上的技术路径大致有哪些?如果灵初选择的是分层架构结合强化学习,其他主流玩家分别倾向于什么方向?王启斌:目前的技术路径主要有几种:一种是用扩散策略(Diffusion Policy)生成模型,再结合模仿学习做操作;另一种是像我们这样,用分层端到端架构。目前来看,分层端到端已经成为全球的主流路径。从Figure到Pi,再到Google的Gina、NVIDIA的Project GR00T,基本都采用了分层设计。但这个架构仍有两大挑战。第一是在小脑和快脑之间,如何训练出真正灵巧的操作能力。现在多数公司还是以模仿学习为主,而我们采用仿真冷启动强化学习训练手部动作。如果大家看我们在社交平台上的演示,会看到我们的机器人可以完成拼乐高、弹钢琴、抛击球等复杂灵巧操作。第二是快脑与慢脑的有机协同。我们的做法是将整个动作作为编码器或token,融入系统的大脑输入,构建融合语言、视觉与操作模态的多模态输入系统,在此基础上统一规划与训练。中国商业科技新闻网:最新的Psi R1模型采用的架构,如何应对这两大挑战?王启斌:我们提出了一套新的架构——CoAT(Chain...
