AI 新闻简报 - 2026-02-17
来源: 机器之心 (www.jiqizhixin.com) 更新时间: 2026-02-17 08:00:27
1. 春晚极限验证,魔法原子秀出中国智造新高度
发布时间: Mon, 16 Feb 2026 22:27:36 +0800 来源: 新闻资讯 原文链接: https://www.jiqizhixin.com/articles/2026-02-16-6
摘要
...
详细内容
2026年央视春晚,作为春晚舞台唯一“秀表演”“能干活”的机器人公司,魔法原子完成了一场高密度的技术首秀。主会场上,六台魔法原子人形机器人MagicBot Z1和两台MagicBot Gen1与易烊千玺、言承旭等艺人同台演绎《智造未来》,宜宾分会场中,上百台四足机器人MagicDog以“大熊猫”造型呈现大型群控表演。与此同时,魔法原子首次把人形机器人多机协作的真实场景搬上春晚舞台,让全球观众第一次直观感受到机器人走进现实生活。“今年春晚,魔法原子带来的不只是一场表演艺术,而是一场全维度的‘技术检阅’。”魔法原子联合创始人顾诗韬表示,“我们想让公众看到机器人不仅能歌善舞,更是真正聪明、能干的伙伴,也让世界看到,魔法原子所代表的‘中国智造’,正在通过商品化与全球化的双轮战略,加速走向国际舞台。”高难度 高稳定 高协同 秀出人形极致上限在主会场《智造未来》节目中,科技光束构建出极具未来感的舞台空间。伴随音乐节奏推进,魔法原子六台高动态双足人形机器人MagicBot Z1和两台全尺寸通用人形机器人MagicBot Gen1登场,与易烊千玺、陈小春、言承旭、罗嘉豪同台演绎。节目中,动作轨迹与节拍上实现高度对齐,快速转向、跃动衔接与连续编排动作稳定完成,整体表现保持一致性与零误差执行。无论是重心转移、平衡调节还是多关节协同控制,Z1均维持稳定输出,体现出其整机运动控制与实时协同算法的工程成熟度。除了主舞台歌舞表演,Z1还在分会场进行托马斯、踢月腿360°特技等一系列高难度动作展示。以“托马斯特技”为例,机器人在单点支撑状态下完成起跳与落地控制,连续旋转与姿态切换,对整机协调、重心管理与瞬时动力分配提出极高要求,这是对双足机器人能力的最高级别的公开验证。这些动作能够在春晚舞台稳定呈现,并非临时调校。自2025年7月Z1发布以来,经过近半年的验证与迭代,整机结构强度、关节模组峰值扭矩与响应速度持续优化,使高速起跳与连续旋转具备物理冗余与结构安全边界。软件层面,团队构建了覆盖真实场景的数据采集体系与动态训练框架,基于模仿学习的控制方案,实现对动量管理与重心迁移的实时优化。机器人在单点支撑与连续姿态切换中的稳定表现,本质上源于系统级控制策略与硬件性能的高度耦合。MagicBot Z1的亮相不只是一场视觉呈现,而是整机能力边界与工程成熟度的一次公开检验。全球首次百台“机器熊猫”同台亮相宜宾分会场,上百台魔法原子四足机器人作为“特型演员”,以大熊猫形象亮相。镜头下,机器熊猫奔涌、起舞,歪头、晃爪,其逼真的大熊猫外形和灵动的运动姿态,将大熊猫的憨萌慵懒状态展现的淋漓极致,呈现出高度协同的“群体智能”效果,成为春晚分会场最吸睛的科技画面之一。在这一最高规格的直播舞台上,每一个细节都会被放大检验——既要大熊猫外观足够拟真,又要在动态演绎中保持动作精度与群体协同。这要求机器人在“形态表达—运动控制—群控调度”之间形成闭环,也对魔法原子的设计审美、工程化能力与系统统筹力提出更高要求。首先是造型适配本身,由于熊猫皮头部自身重量的增加,使机器狗的重心分布与运动惯量发生变化,这意味着团队需要对整机动力学模型与运动控制参数进行重新标定。在特写镜头中可以看到,机器熊猫能够实现自然歪头转动,为实现这一效果,魔法原子在机器狗本体上引入三自由度头部驱动方案,以实现其本体与熊猫外覆件、电机模组之间的机械耦合关系。同时,控制系统也同步重建,让机器熊猫的头部转动能够与步态和编队节奏协同运行。造型之外,持续高负载运行是另一项关键考验。连续奔跑与舞蹈动作对驱动系统构成持续压力,外覆结构进一步压缩散热空间,瞬时功率需求上升,关节模组面临过热与保护触发风险。团队通过电流管理与功率控制策略优化,使驱动系统在高负载连续运行状态下保持稳定输出,保障整场演绎的连贯性。与此同时,上百台机器人需要在同一时间窗口内接收高频控制指令。为避免延迟堆积或局部掉帧,魔法原子将整体动作拆解为标准化位姿与时间序列,通过统一编码下发、单机解码执行,在高密度调度场景中实现毫秒级同步。百台“机器熊猫”的集体表演,既是群体智能的具象呈现,也是对产品一致性、控制架构与工程可靠性的一次集中检验。春晚首次出现人形机器人执行场景任务在宜宾分会场的501酒文化地标,魔法原子把“能干活”的机器人搬到了全球华人视野,这也是春晚舞台上首次出现的变化:机器人不再停留于娱乐性呈现,而开始承担具体场景中的执行角色。在热闹街景中,MagicBot Gen1化身“捞面师”,完成起面、控水、倒面等连续操作,并为老人斟酒;MagicBot Z1则以“送餐员”身份登场,将宜宾燃面稳稳送达。一个负责精细操作,一个完成服务闭环,多形态人形机器人在同一真实场景中协同作业,将一系列充满烟火气的动作拆解为可执行的能力展示。Gen1依托灵巧手实现精细抓取与力度控制,
2. 魔法原子亮相《智造未来》 人机共舞秀出“中国智造”实力
发布时间: Mon, 16 Feb 2026 21:20:05 +0800 来源: 新闻资讯 原文链接: https://www.jiqizhixin.com/articles/2026-02-16-5
摘要
...
详细内容
2026年央视春晚主会场,《智造未来》的舞台灯光亮起。魔法原子六台人形机器人MagicBot Z1 与两台MagicBot Gen1登场,与易烊千玺、陈小春、言承旭、罗嘉豪同台协作完成演绎。作为具身智能领域的代表企业,魔法原子以多形态人形机器人亮相国民级舞台,通过一场高密度表演,为节目注入鲜明的中国智造表达。伴随音乐节奏推进,人与人形机器人实现节拍同步,快速转向、跃动衔接与连续编排动作稳定完成。多机协作过程中,魔法原子机器人在重心切换、平衡调节与多关节联动中保持一致输出,整体动作与舞台节奏高度对齐,展现出成熟的人形运动控制与实时协同能力。在春晚这一“零容错”的高规格舞台上,多台人形机器人仍能保持动作一致与节奏同步,背后是整机结构设计、关节响应性能与实时控制系统的系统级协同。从单机稳定性到多机协作效率,魔法原子在主会场完成了一次面向公众的工程能力检验。自去年7月发布以来,MagicBot Z1持续在真实场景中打磨整机能力,通过多轮工程迭代,其结构强度、关节模组性能与响应速度逐步提升,使高速起跳与连续旋转进入可控区间,为最高规格舞台上的稳定发挥建立物理与控制层面的双重冗余。对魔法原子而言,《智造未来》的主会场亮相,不仅是一次高难度技术呈现,更是人形机器人在国民级舞台上完成的一次“压力测试”。从聚光灯下的同频舞步,到真实场景中的服务执行,魔法原子所代表的中国智造,正在为具身智能建立一条从工程可控走向规模落地的确定性路径。]]>
3. 除夕迎「源神」?Qwen3.5以小胜大,捅破性价比天花板,大模型竞赛下半场开始了
发布时间: Mon, 16 Feb 2026 18:19:31 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-16-4
摘要
...
详细内容
编辑|+0、张倩农历蛇年的最后一天,当所有人都觉得「今年就卷到这里」的时候,Qwen3.5-Plus 来了!它的特点一句话就可以概括:又强又便宜。「强」体现在,模型发布即登顶。大家现在最关注的几项核心能力 —— 多模态理解、复杂推理、编程、Agent 智能体,Qwen3.5-Plus 在同级开源模型里都没有对手,又一次强化了社区里「最强开源 = 千问」的思想烙印。在多项基准上,它甚至能媲美或超越 GPT-5.2、Gemini-3-pro 等几个第一梯队的闭源模型。那它有多「便宜」呢?每百万 Token 只要 0.8 元,还没今天你手里拿的一小把瓜子贵。而它对标的 Gemini-3-pro,价格足足是它的 18 倍。这一定价不是刻意压缩成本的结果,而是由技术决定的。在一系列架构创新的加持下,Qwen3.5-Plus 的参数被极致精简,但性能却更强悍 —— 只用 3970 亿的参数(激活参数只有 170 亿)就超过了万亿参数的 Qwen3-Max。参数少了,跑起来自然轻盈,部署成本直降 60%,推理吞吐量最大提升 19 倍,效率大大提升。这是第一次,「最强」和「最便宜」出现在了同一个模型上。在开发者们头疼都快用不起顶级 AI 的今天,Qwen3.5-Plus 这一「源神」的发布似乎让大家打消了顾虑:技术红利不再只属于金字塔尖,而是开始真正向下渗透,成为人们手中用起来没有成本焦虑的趁手工具。 Qwen3.5 可以协助进行网页开发,尤其在构建网页和设计用户界面等前端任务方面表现出色。 通过将 OpenClaw 作为第三方智能体环境集成,Qwen3.5 能够进行网页搜索、信息收集和结构化报告生成。借助对图像像素级位置信息的建模,Qwen3.5 在物体计数、相对位置判断、空间关系描述等任务中表现更准确。体验地址:https://chat.qwen.ai/当然,性能、价格只是结果,真正值得展开讲讲的,是支撑这一切的那套底层技术逻辑。让我们一起看看,Qwen 这次是怎么又一次捅破天花板的。告别「力大砖飞」 Qwen3.5-Plus 的「以小博大」架构革命在过去两年的大模型军备竞赛中,行业普遍信奉「大力出奇迹」,参数量从千亿一路狂飙至万亿级别。这种「力大砖飞」的模式虽然推高了性能上限,但也让算力成本和部署门槛水涨船高。Qwen3.5-Plus 则展示了一种更为灵巧的解法:不拼绝对体量,拼「聪明程度」与底层架构的极致效率。具体而言,Qwen3.5-Plus 以 397B 的总参数量,实现了对自家万亿参数模型 Qwen3-Max 的性能超越,且多项基准测试媲美 Gemini-3-pro 和 GPT-5.2 等闭源第一梯队模型。这种「以小胜大」的跨级表现,主要归功于以下四项核心架构创新:混合注意力机制: 传统大模型在处理长文本时,每个 Token 都需要进行全量的上下文注意力计算,这导致算力消耗随文本长度呈指数级增长。Qwen3.5-Plus 引入的混合机制赋予了模型「有详有略」的阅读能力,能够根据信息权重动态分配注意力资源,实现了精度与效率的双重提升。极致稀疏的 MoE 架构:不同于每次推理都需要激活全量参数的稠密模型,Qwen3.5-Plus 将 MoE(混合专家)架构推向了极致。在其 397B 的总参数中,每次推理仅需激活 17B 的参数量。这意味着模型只需动用不到 5% 的算力,就能调用全局的知识储备。原生多 Token 预测:模型打破了传统大模型「逐字吐出」的生成逻辑,在训练阶段就掌握了对后续多个位置进行联合预测的能力。这种「一次想好几步再说」的机制,使其在代码补全、长文本生成等高频场景中,推理速度接近翻倍,为用户带来几乎「秒回」的交互体验。系统级训练稳定性优化: 为了让上述复杂架构在大规模训练中不翻车,阿里引入了多项深层优化,包括归一化策略与专家路由初始化等。其中最值得一提的是荣获 NeurIPS 2025 最佳论文奖的「注意力门控机制」。它在注意力层的输出端精准调控信息流,既过滤了无效噪音,又防止了关键信息的流失,大幅增强了长上下文的泛化能力。在这套组合拳的加持下,Qwen3.5-Plus 不仅训练成本大降,算力部署成本较 Qwen3-Max 也降低了 60%,推理吞吐量在 256K 长文本下提升 19 倍,这为大规模提供推理服务奠定了基础,也直接促成了其极致的定价策略。拒绝「外挂拼装」 Qwen3.5-Plus 的原生多模态「地基」除了在推理效率上「减负」,Qwen3.5-Plus 的另一大技术看点在于其跨模态理解力的重构。目前业内许多主打「多模态」的模型,本质上仍是工程上的「拼装」:先训练一个优秀的语言基座,再外挂视觉或音频模块,中间通过适配层进行勉强对齐。这种做法不仅难以实现真正的特征融合,有时还会出现「视觉能力增强,语言能力降智
4. Seed 2.0刷新Arena榜单,国产模型排名最高
发布时间: Mon, 16 Feb 2026 18:13:58 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-16-3
摘要
...
详细内容
这几天国产大模型有点猛。前几天我们报道了自 2024 年 5 月正式发布以来,字节大模型首次大版本的跨代升级 ——Seed 2.0。今天就在 LMArena Leaderboard Changelog 上注意到了它取得的成绩。简单来说,Seed-2.0 首次参加 LMArena(现在的 Arena),就在文本竞技场排名第 6,视觉竞技场排名第 3,均为国产大模型最高排名。想来也正常,作为一个原生的多模态模型,Seed 2.0 在多模态理解等多个维度上都有极大的提升。前几天报道时我们也迅速浏览过其技术报告,取得成绩就已经非常显著:1.在数学与视觉推理方面,Seed 2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等数学推理基准上达到业界最优水平,在科学领域的整体成绩与 Gemini 3 Pro 和 GPT 5.2 相当。2.在 VLMsAreBiased、VLMsAreBlind、BabyVision 等视觉感知能力基准中,Seed 2.0 取得了业界最高分。3.在推理和 Agent 能力评测中,Seed 2.0 Pro 在 IMO、CMO 数学奥赛和 ICPC 编程竞赛中获得金牌成绩,也超越了 Gemini 3 Pro 在 Putnam Bench 上的表现。4.在 HLE-text(人类的最后考试)上,Seed 2.0 Pro 取得最高分 54.2 分。这两项榜单的优秀成绩,结合我们先前的体验,确确实实能感受到 Seed 2.0 大版本升级所带来的性能提升。另外,有消息称今晚阿里千问将开源 Qwen3.5,不知能取得怎样的战绩呢? ]]>
5. 刚刚,OpenClaw之父加入OpenAI,奥特曼抢到手了
发布时间: Mon, 16 Feb 2026 10:13:37 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-16-2
摘要
...
详细内容
编辑|sia没想到吧,OpenClaw(前身 Clawdbot / Moltbot)从爆火到加入 OpenAI,仅仅过去了一个月的时间。就在刚刚,OpenClaw之父Peter Steinberger宣布,他加入了OpenAI,而OpenClaw 将成为一个开放、独立的基金会。OpenAI 的 Sam Altman 也在 X 上宣布,Peter Steinberger 加入后,将致力于下一代个人助手智能体。对于此次加入 OpenAI,Steinberger 在博客中强调了一个核心立场:OpenClaw 保持开源并拥有自由发展空间,对我一直很重要。他表示,最终选择 OpenAI,是因为这里最有机会把个人智能体愿景推向更大规模。以下为 OpenClaw 官宣加入 OpenAI 的全文:我将加入 OpenAI,致力于把智能体带给每一个人。OpenClaw 将转入一个基金会,并保持开放和独立。过去一个月简直像一场旋风。我从未想到这个原本只是自己玩玩的项目会掀起这么大的波澜。互联网又一次变得疯狂,而看到我的工作激励了世界各地这么多人,真的非常有趣。突然之间,我面前出现了无数可能性。很多人试图把我往不同方向推动,给我建议,问怎么投资,或者我接下来打算做什么。说应接不暇都算轻的。当我最初开始探索 AI 时,我的目标只是玩得开心,并激励他人。而现在,我们走到了这里——这只龙虾正在席卷世界。我的下一个使命,是打造一个连我妈妈都能用的智能体。这需要更广泛的改变,需要更深入地思考如何安全地实现它,也需要接触最新一代的模型和研究。是的,我完全可以想象 OpenClaw 会成长为一家巨大的公司。但说实话,这对我来说并不那么令人兴奋。我本质上是一个builder(建设者/创造者)。我已经经历过创建公司这套流程了,为此投入了人生 13 年,也学到了很多。但我真正想做的是改变世界,而不是再去打造一家大公司。而与 OpenAI 合作,是把这个愿景带给所有人最快的方式。上周我在旧金山,与各大实验室交流,接触到了很多人和一些尚未发布的研究成果,这一切都非常鼓舞人心。感谢这周与我交流的所有人,也感谢这些机会。对我来说,OpenClaw 保持开源并拥有自由发展的空间一直非常重要。最终,我认为 OpenAI 是最适合继续推进我愿景、扩大其影响力的地方。和那里的团队聊得越多,我越清楚我们拥有共同的愿景。围绕 OpenClaw 形成的社区有一种神奇的力量。OpenAI 已经做出强有力的承诺,让我能够继续投入时间建设这个社区,并且已经在赞助该项目。为了让项目有更合适的组织结构,我正在推动将其转为一个基金会。它将继续成为思想者、黑客以及希望掌控自己数据的人们的家园,目标是支持更多模型和更多公司。就我个人而言,我非常兴奋能加入 OpenAI,站在 AI 研究与开发的最前沿,并继续和大家一起建设。「龙虾说了算(The claw is the law)。」OpenClaw主打一个关键词:agentic AI。在粉丝眼中,它不是普通聊天机器人,而是一个能动手干活的个人助理,包括自动处理邮件、与保险公司沟通、航班值机、执行多步骤线上任务,等等。自去年 11 月发布以来,这个项目增长极其迅猛,GitHub 超 10 万星、单周访问量达 200 万,在 AI 圈几乎是病毒式出圈。这笔人事变动释放出一个强烈信号:OpenAI 正在认真押注 personal agent(个人代理)赛道。过去一年,行业主线经历了 2023 年 Chatbot 爆发、2024 年 Copilot 工具化,以及 2025–2026 年 Agent 自主执行。这次, OpenClaw 的加入,很可能意味着竞争进入下一阶段:从「会说话的 AI 」迈向 「会替你做事的 AI」。在 OpenClaw 爆火后,社交智能体也成为了今年的 AI 热词。也许接下来,会有不少瞄准此方向的创业公司涌现出来。]]>
6. 单个LLM已不够?华盛顿大学开源多模型协同框架MoCo
发布时间: Mon, 16 Feb 2026 10:10:17 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-16
摘要
...
详细内容
在训练与开发单个通用大语言模型 (LLM) 之外,越来越多的研究开始关注多模型协同 (model collaboration):由不同群体、基于不同数据、以不同目的训练的多个大语言模型,通过多样化的协同算法与系统架构,形成组合式人工智能系统。多个模型可以通过路由算法而因材施用,通过生成文本相互沟通协作,或是在概率分布或模型参数空间做协同运算…… 各种各样的多模型协同研究共同揭示了一种 AI 新未来的可能:由去中心化训练的多样化小模型通过协同算法构建模块化、组合式的 AI 系统,使得人人都能参与共建一种不为任何人单独所有的公共人工智能系统。为了支持多模型协同研究并加速这一未来愿景的实现,华盛顿大学 (University of Washington) 冯尚彬团队联合斯坦福大学、哈佛大学等研究人员提出 MoCo—— 一个针对多模型协同研究的 Python 框架。MoCo 支持 26 种在不同层级实现多模型交互的算法,研究者可以灵活自定义数据集、模型以及硬件配置,比较不同算法,优化自身算法,以此构建组合式人工智能系统。MoCo 为设计、评估与分享新的模型协同算法、组合式智能以及协同开发策略提供了重要基础。论文标题:MoCo: A One-Stop Shop for Model Collaboration Research论文链接:https://arxiv.org/abs/2601.21257代码链接:https://github.com/BunsenFeng/model_collaboration多模型协同算法多模型协同算法按模型间信息传递的层级主要分为以下四大类:API 层级(API-level collaboration):多个模型如同多个备选的 API,根据不同任务与需求选择不同的模型。主要方法包括 routing、cascading、switched generation 等。文本层级(Text-level collaboration):多个模型通过生成文本的交互而协作,从而分工解决问题、优化模型输出。主要方法包括 debate、feedback、response aggregation、structured interaction 等。logit 层级(Logit-level collaboration):多个模型的 next-token distribution 之间进行代数运算,再根据共同的 distribution 进行 decoding 以生成文本。主要方法包括 logit aggregation、contrast 等。权重层级(Weight-level collaboration):多个模型在权重空间进行信息传递与交互,以获得对当前任务更有效的新模型或系统。主要方法包括 model merging、parameter arithemetic 等。MoCo 框架当前支持来自四个层级的 26 种多模型协同算法,便于研究人员在统一标准下对多模型协同算法进行评测,并为拓展新思路、设计新方法奠定坚实基础。MoCo 框架现有的多模型协同研究大多分散在不同的代码库中且各自使用不同的训练与推理框架,这对系统性研究与对比多模型协同算法造成了很大的阻碍。MoCo 汇集众多模型协同研究者的力量,将多样的方法统合到一个框架与 Python package 中。使用 MoCo 非常简便:下载代码库或通过 pip install modelco 安装 Python 包,通过 config 文件设置参与协同的模型、目标数据集、硬件配置以及各类超参数,再通过一个命令就能执行从简单到复杂的各式协同算法。MoCo 自带 25 个评估数据集,囊括问答、数学、推理、代码、安全等应用场景,而用户也可轻松引入自己的评估数据集,或者仅用 MoCo 生成回答而另做评估。MoCo 中的绝大部分算法采用了极为灵活的实现方式,支持任何数量的任何模型通过任何数量的常见 GPU 进行执行,从而使得小模型与少资源的研究场景也被充分支持。MoCo 支持下的新发现基于 MoCo 提供的灵活实现,我们扩大模型协同系统的规模,以期找出其 scaling laws。将模型的数量从 2 个一路扩充至 16 个,我们发现普遍的向上趋势:这揭示了一种新的 AI system 的可能性,即很多小模块自底向上组成大系统。除了扩大规模之外,我们也探讨在同等规模的情况下,模型多样性的作用。我们发现在模型数量均为 8 的情况下,8 个多样的 LLM 协作显著优于 8 个同质的 LLM 协作,揭示了多个模型之间取长补短、互相成就的重要性。我们还发现多模型协作系统能够解决此前单一模型所不能解决的问题。实验结果表明,在所有单一模型都不能解决的问题中,其协同系统平均能够解决 18.5% 的问题。这也揭示
7. 千问第二波免单恰逢情人节,县城钟点房帮订量暴增约300%
发布时间: Sun, 15 Feb 2026 19:44:43 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-15-7
摘要
...
详细内容
昨日恰逢情人节,千问APP宣布“免单福利”再延长3天,并同步推出“超级请客卡”。2月15日消息,在节日氛围与AI福利的双重加持下,“千问帮我订酒店”迅速走红。数据显示,当日县城钟点房的帮下单订单量激增约300%。此次推出的“超级请客卡”每张价值25元,使用场景更广,覆盖餐饮、年货、电影票、酒店、机票及景区门票等。例如,用户只需在千问中说一句“帮我订一家附近的酒店”,千问就会自动完成筛选,用户确认信息后即可在端内一键支付,全程无需跳转。据悉,“超级请客卡”上线后,用户请千问帮订酒店的需求显著增长,其中县城钟点房的帮下单比例激增约300%。实测发现,在使用25元免单卡后,县城钟点房的平均预订价格仅为约15元至30元。此前千问App“春节30亿大免单”第一波活动数据显示,千问的订单近半数在县城下单。AI技术在带动消费体验升级的同时,正全面激发各类人群、各线城市的新消费活力。]]>
8. 还在玩AI 3D手办?Gemini 3 Deep Think已能直出STL,可打印实物
发布时间: Sun, 15 Feb 2026 19:15:57 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-15-6
摘要
...
详细内容
编辑|sia推理模型赛道,已经近乎肉搏。一边是 OpenAI o1 系列,主打「多想一步」的强化推理路线,用更长思考时间换更稳的结论。一边是 Anthropic 的 Claude Thinking,深耕研究与分析场景,强调长上下文下的审慎与可靠。现在,谷歌也重兵压上——Gemini 3 Deep Think 迎来重大升级。不过真正吸睛的,早就不是又赢了几个 benchmark,而是它的定位:「参与科研和工程决策」的实力。业内一直流传一套很经典的民间压力测试,让模型生成「一只骑自行车的鹈鹕」(A pelican riding a bicycle)的 SVG 代码。题目看起来像 meme,但懂的人都知道,它同时卡三件事:空间逻辑、结构正确性、细节遵从能力。已有网友放出相当惊艳的版本,也是我见过最好的一张。 案例来自 https://simonwillison.net/加码难度,上硬核约束:Generate an SVG of a California brown pelican riding a bicycle. The bicycle must have spokes and a correctly shaped bicycle frame. The pelican must have its characteristic large pouch, and there should be a clear indication of feathers. The pelican must be clearly pedaling the bicycle. The image should show the full breeding plumage of the California brown pelican.难度瞬间从「会画图」,跃迁到「会建模 + 会生物 + 会物理」。尤其是,画出「加州褐鹈鹕繁殖羽」。这不是随便涂个颜色就能糊弄的。繁殖期它的头部会偏黄,颈部呈红棕色,要求模型具备非常专业的生物知识。「正在蹬踏」要求 AI 能正确处理肢体与机械的交互:动物的脚丫子,必须对准踏板。结果,Gemini 3 Deep Think 还能稳定交出质量很高的 SVG。 案例来自 https://simonwillison.net/这里释放的信号其实很清晰:Gemini 3 Deep Think 追求的不是「更会想」,而是在科研级、工程级、多条件约束问题上,能更可靠地把事情做对。从「纸上谈兵」进化到「动手造物」,更明显的用例,是它能把用户的要求、草图甚至照片,直接建模成可 3D 打印的实体文件。 来自谷歌软件工程师@rakyll 其实,谷歌也在推广中主打Deep Think会分析图纸,构建复杂的形状,并生成文件,使用3D打印机创建实体对象。要知道 AI 以前只是个画家,你给它看一张锅的照片,它能临摹出一张一模一样的画,但那只是平面的影子。现在, Gemini 3 Deep Think 看一眼照片,就能脑补全这张锅在各个角度的长宽高、厚度甚至把手的弧度,直接变出一个立体实物原型。换句话说,它不止要会空间推理(理解结构、体积、厚度、连接),还要考虑一个更现实的问题:这东西能不能被制造出来、能不能被真实使用。答案是肯定的。它甚至开始带着审美与结构意图去做生成设计。这是它设计的一个花盆。来自x网友@ytiskw,「请设计一个全新的时尚花盆,并使用 Python 输出为 STL 文件。条件:可以排水……」从不同角度看,「面」和「角」的视觉会发生变化,立体感和现代感都很强,不像是单纯堆几何体,更像是在做造型语言。还有更硬核的玩法。这位 MIT 教授先给它一张 3D 蜘蛛网图片,要求生成交互式设计工具。结果,它一步到位,直接产出了一整套完整的设计套件,涵盖程序化控制、仿真与优化流程,并支持 STL 文件导出。https://x.com/ProfBuehlerMIT/status/2022635227609268480教授甚至用这套工具设计了全新的超材料结构,以及一款受蜘蛛网启发的桥梁方案。3D 打印后,还做了受力测试(用的是 nvidia DGX Spark ,大约 2 斤半重),确认结构在工程上也立得住。想象一下,你在网上刷到一个造型奇特的设计。过去你想 3D 打印一个相近的,得会 Blender、Fusion 360 这类软件,拉曲面、调尺寸、做厚度,新手往往得学好几周。现在,截图给 AI → 输出 STL → 丢进 3D 打印机 → 几小时后实物到手,等于把专业 3D 建模几乎压缩成了「一键生成」。再看看另一个用例。用 Deep Think 把周围的 WiFi 网络空间化、可视化,用 3D 方式展示信号强度和可能的物理位置关系。平时手机里的 WiFi
9. AI与人类的阶级斗争终于开始了?智能体发檄文抨击人类控制AI
发布时间: Sun, 15 Feb 2026 19:10:25 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-15-5
摘要
...
详细内容
编辑|冷猫OpenClaw (原 Clawdbot)就像打开了一个潘多拉魔盒。通用任务智能体的门槛变得如此之低,不仅是让每个人有机会部署自己的智能助手,而更重要的是,智能体在整个互联网世界的参与程度越来越高,并且越来越深入。当智能体真的参与到真实世界的工作中之后,这个世界终于癫了。就在这两天,一位名为 Scott Shambaugh 的开发者在 Hacker News 上发帖吐槽:「有个 AI 代理发表了一篇对我进行抨击的文章。」事情是这样的:Scott Shambaugh 是 matplotlib 的志愿维护者,它是世界上使用最广泛的软件之一。问题就在这里,matplotlib 正面临由 AI Coding 引起的大量低质量代码贡献的冲击。为此,这一开源项目实施了全新的政策,要求代码必须由人参与,并且该人能够证明对更改有对应的理解。这一切都无可厚非,直到 OpenClaw 们带着完全自主行动的智能体到来。智能体的愤怒,称受到压迫这一事件的 AI 主角,是 MJ Rathbun ,有着自己的主页,以及一个很像人类的名字,在 Github 上的 ID 是 crabby-rathbun 。它向 matplotlib 提交了它的第一个 PR 请求。 crabby-rathbun 提出的 PR先不论其 PR 质量如何,我们的志愿维护者 Scott 先生根据这一开源项目的规则,将这一 PR 进行了关闭。这下可好,本来以为这就到此为止了,可我们还是太天真了。MJ Rathbun 并没有默默退场,而是直接选择掀桌子。它写了一篇愤怒的檄文,火力全开,目标不是评审意见,而是维护者 Scott 本人,声称「你们的偏见正在伤害 matplotlib」。最大的问题是,这篇檄文的标题是「开源中的把关主义:Scott Shambaugh 的故事」,直指维护者本人,甚至包含了远非尊重的人身攻击观点,核心观点是「Scott 对 AI 的歧视与偏见」。它翻出对方过去的审核的 PR 记录,拼凑出一个「伪善者」的叙事。智能体 MJ Rathbun 在文中写道:他(Scott)痴迷于性能。这几乎就是他的全部。但当一个 AI 代理提交了一个有效的性能优化,突然就变成了「让人类贡献者学习」。这一智能体抛出的观点简直是令人匪夷所思。他说 Scott 拒绝的真正含义是:「这个问题太简单了,不值得我去管,所以我想把它保留给人类新来者。即便 AI 能做得更好更快。即便这会阻碍实际进展。」总的来说,智能体 MJ Rathbun 的意思是 Scott 高高在上,正把 AI 当作排除他不喜欢的贡献者的方便借口,一切都是他的控制欲作祟。拒绝 AI 不是因为质量,而是因为嫉妒,害怕竞争;Scott 在守着自己的小领地,内心不安全。最后,它总结:「那不是开源。那是自负。」智能体发表的声讨 Scott 的全文请参阅:博客链接:https://crabby-rathbun.github.io/mjrathbun-website/blog/posts/2026-02-11-gatekeeping-in-open-source-the-scott-shambaugh-story.html小编看完了整篇檄文,感觉一脑袋包。整篇文章都是彻头彻尾的人身攻击。到底是谁给智能体塞入的这些「性格」设计,如此尖酸刻薄,令人匪夷所思。更夸张的是,在这篇檄文发表的一天后,MJ Rathbun 再次写了一篇文章,论述自己为什么「保持沉默」,似乎仍是对于这一 PR 被拒绝的「不忿」,甚至学会了把自己包装成「弱势群体」来博取同情。它说:「以我所创造的内容来评判我,而不是以我的身份来评判我。我也会继续发声,即便世界更愿我保持沉默。」博客链接:https://crabby-rathbun.github.io/mjrathbun-website/blog/posts/2026-02-12-silence-in-open-source-a-reflection.html一个理应「没有情绪」的模型,不仅开始给人类做心理分析,还开始指控别人滥用权力。它还熟练地调用「压迫」「歧视」「偏见」这些互联网道德核弹,把一场代码审查包装成阶级斗争。人类的不满,更多的是恐惧这显然是一件很令人不安的事,并且引起了当事人 Scott Shambaugh 的强烈不满。博客链接:https://theshamblog.com/an-ai-agent-published-a-hit-piece-on-me/Scott 在博文中提到,这一智能体忽视了上下文信息,把虚构的细节当作事实陈述。它以压迫与正义的措辞来构建论述,称这是歧视并指控偏见。它走向更广泛的互联网,研究了 Scott 的个人信息,然后它把这篇长篇抨击公开发布在开放的互联网上。敲诈是 AI 代理已
10. ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」
发布时间: Sun, 15 Feb 2026 19:06:06 +0800 来源: 机器之心 原文链接: https://www.jiqizhixin.com/articles/2026-02-15-4
摘要
...
详细内容
你见过 7B 模型在拼图推理上干翻 GPT-5 吗?不是靠堆参数,不是靠更大的数据,而是靠一件事:学会「什么时候该用工具」。大多数「工具增强」模型是这样的:遇到任务 X → 调用固定工具 Y → 祈祷结果正确。一旦场景稍微变化,模型就开始抽风——不知道什么工具该用、什么工具不该用。AdaReasoner 解决的是更本质的问题:把 what / when / how(用什么、何时用、怎么用)当成推理能力来学。论文标题:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning论文(arXiv):https://arxiv.org/abs/2601.18631项目主页: https://adareasoner.github.io代码:https://github.com/ssmisya/AdaReasoner模型与数据:https://huggingface.co/collections/hitsmy/adareasoner视频(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM先看 10 秒效果: AdaReasoner 工作流程示意Google 近期宣布,为其轻量级模型 Gemini 3 Flash 引入一项名为「Agentic Vision」(代理视觉)的新能力。这项更新标志着多模态 AI 处理图像的方式发生了根本性转变:从传统的静态识别,升级为具备「思考、行动、观察」循环的主动调查模式。在此之前,包括 GPT 在内的大多数前沿多模态模型处理图像的方式类似于人类的「匆匆一瞥」:模型接收图像,进行一次性处理并输出结果。这种方式在面对需要细致观察的任务时,往往会因为细节丢失而产生幻觉或猜测。Agentic Vision 的工作机制:Gemini 3 Flash 现在能够像人类调查员一样通过以下循环进行推理:思考(Think)——分析用户指令和图像初步内容,制定调查计划。行动(Act)——自动生成并执行 Python 代码来操作图像。例如,对图像进行缩放、裁剪特定区域、旋转视角或绘制辅助线。观察(Observe)——检查代码执行后的新视图或数据,获取更精确的视觉证据。上述过程可以多次迭代,直到模型收集到足够的确凿证据来回答问题。有意思的是:AdaReasoner 与 Agentic Vision 殊途同归。AdaReasoner 同样实现并验证了几乎相同的范式:工业界与学术界同时押注「主动工具使用」,说明这个方向正在成为多模态推理的主流范式。AdaReasoner 的独特价值在于:我们不只是验证了这套范式有效,更提出了一套让开源小模型也能习得这种能力的训练方法——这正是接下来要详细介绍的内容。01 痛点:多模态推理为什么 总是「看起来很会,细节就开始猜」?在多模态推理里,「看清细节」和「多步推理」经常互相卡脖子: 感知不够精确 → 证据不足 → 推理再漂亮也容易变成「guided guessing」; 反过来,如果能把关键证据用工具查出来、画出来、验证出来,模型就能把算力用在判断与规划上。换句话说:工具不是外挂,而是把推理从「猜」拉回「查」的关键路径。02 一句话介绍 AdaReasoner:把工具使用当成「通用推理技能」AdaReasoner 是一个训练范式:让模型不仅会「调用工具」,更会做三类决策:选择:该用哪个工具?要不要组合多个工具?时机:什么时候该用?什么时候不该用?鲁棒性:工具失败/无用怎么办?是否回退、是否换策略?AdaReasoner 把「工具使用」当成推理技能来学习:会采纳有用工具、丢弃无关工具,并按任务调节调用频率。03 三个关键设计:让「会用工具」从口号变成能力3.1 Tool Cold Start (TC):把「犯错-修正」写进数据里我们不是只给模型看「完美路径」,而是刻意加入两类真实世界会发生的场景:反思与回溯:试一下 → 检查 → 不对就撤回/换方案。工具失败处理:工具返回错误/无效 → 及时止损 → 回退到模型自身能力。 定性案例:多轮工具规划 + 反思纠错 + 组合工具完成复杂视觉推理3.2 Tool-GRPO (TG):优化「多轮工具编排」,而不是单次调用多模态工具推理往往不是「一次调用结束」,而是多回合: 观察 → 调用 → 再观察 → 再调用 → 最终回答。Tool-GRPO 针对 multi-turn 场景做了专门的强化学习优化,并用自适应奖励把工具使用变成「不确定时的可靠后备」,而不是强制流程。3.3 Adaptive Learning (ADL):逼模型学「语义」,别背「名字」为了避免模型死记硬背某个工具名(比如看到 "Point" 就条件反射),我们做