
走进General Intuition位于纽约的研发楼层,公司31岁的联合创始人兼CEO Pim de Witte立刻将我的注意力引向一台立式办公桌上的显示器。屏幕上,有人似乎正在玩类似《堡垒之夜》的游戏——但操控者并非线;我们的智能体已经连续玩了100个小时,首席产品官Kent Rollins自豪地说。
我还没来得及沉浸在AI自主操控游戏的画面中,便听到一台四足机器人的电子脚步声正在靠近。
驱动游戏智能体的大脑,同样驱动着这台机器人,de Witte告诉我。数据分析师Josh Duplantis手持一台实时接收机器人单目摄像头画面的笔记本电脑,补充说这台机器人的默认模式是探索。
依靠这只独眼,这台形似巨型甲虫的机器人走向我、绕我转了一圈,随后继续向办公室深处行进。它偶尔碰到椅腿或撞上垃圾桶,就像一个尚未掌握身体与周围空间关系的蹒跚学步的孩子。Duplantis表示,只需八分钟的真实世界机器人数据,就能对四足机器人的AI模型完成微调。更值得一提的是,这些数据是在户外街道上采集的,而非机器人当前行进的室内办公环境。
打造一个能够从游戏玩法泛化至仿真场景、再延伸至实体具身的智能体模型,正是General Intuition的核心使命。而这一模型在空间认知上展现出的潜力,也为公司赢得了重量级投资方的青睐。
本周四,General Intuition宣布以23亿美元估值完成3.2亿美元融资,这证实了TechCrunch此前的相关报道。加上去年10月成立时完成的1.34亿美元融资,该公司已披露的融资总额达到4.54亿美元。
这家初创公司脱胎于de Witte的另一家公司Medal——一个允许玩家上传和分享游戏片段的平台。数亿小时的上传游戏录像,构成了General Intuition训练模型所用的初始数据集,用于学习时空推理,即理解如何在空间与时间中运动。
然而,关键要素并不是游戏画面本身,而是这些片段中内嵌的动作标签——精确记录玩家按下了哪个按键、以及按下的时机。de Witte表示,大多数竞争对手试图仅从视频画面中推断动作,他认为这种方式远远不够。
我们将其视为未来预训练的下一阶段,de Witte说,我们拥有一个单一模型,它既能响应屏幕上的《堡垒之夜》信息并采取行动,又能适应真实世界的动态变化——这是大语言模型永远无法做到的。
演示过程中,de Witte让我使用一台运行General Intuition世界模型的笔记本电脑,这是一个逐帧生成的仿真环境,而非由传统游戏引擎渲染。我像往常测试世界模型一样,径直走向一堵墙。在其他我体验过的演示中,操控角色有时会直接穿墙而过,但这里没有发生。从数百万小时的游戏数据中,这个模型不知为何学会了:墙是墙,梯子是用来攀爬的,而随着太阳移动,阴影会拉长。
对General Intuition而言,世界模型并非最终产品,而是训练环境(公司内部称之为训练场)。公司最终想要销售的是智能体模型本身。de Witte认为,游戏数据中内嵌的动作信息,能帮助模型区分自我与环境,从而建立更深层的因果理解。
尽管General Intuition的技术在演示中令人印象深刻,但该公司并非唯一一家试图破解这一难题的企业。此外,让这类模型在真实物理世界中大规模稳定运行,目前尚无先例。此类方案大多需要大量依赖缓慢且昂贵的方式采集真实世界数据。General Intuition的赌注在于:游戏数据是一条可规模化扩展的捷径。
投资方也愿意接受这个赌注。General Intuition本轮融资由Khosla Ventures领投,General Catalyst、杰夫·贝索斯、埃里克·施密特、尼科·罗斯伯格以及谷歌DeepMind和麻省理工学院的研究人员也参与其中。
绝大部分资金将用于扩大算力规模。General Intuition已与CoreWeave达成合作,并计划专注于下一版本模型的预训练。另有一部分资金将用于在今夏末之前更大范围地开放其API接口。
领投本轮的Vinod Khosla表示,吸引他的是de Witte的愿景以及公司独有的数据壁垒。
回顾大语言模型的发展,当推理能力出现时,那是一次质的飞跃,Khosla在电线;对于世界模型,我认为这一飞跃将是AI中直觉的涌现——一种类似人类直觉的能力。而游戏中人类的行动数据与反应数据,正是这种直觉涌现的关键所在。
General Intuition并非唯一注意到Medal人类行动数据价值的公司。公司首席幕僚Brianna Martin表示,这家初创公司的诞生,部分源于Medal曾拒绝一家大型实验室的收购邀约,此后也有过其他收购意向。
de Witte和联合创始人Eloi Alonso、Adam Jelley、Vincent Micheli对被收购并无兴趣,投资方目前也不急于退出。General Intuition通过Medal积累的海量高质量专有数据,是Khosla确信这家初创公司是一次跨代际的押注而非并购标的的核心原因——他认为这家公司有潜力成为仿真与真实世界中通用智能体和世界模型的底层基础。
在目前阶段,收购它不过是一次数据收购,意义不大,Khosla说。
这位创业者曾在人道主义领域工作三年,包括在无国界医生组织的经历。正因如此,他为General Intuition的技术划定了一条明确的红线:不会开发任何用于伤害人类的智能体。
我们不希望成为这个系统中推动升级对抗的一环,de Witte说,假设我公开宣布我们要做致命自主武器,你觉得其他国家会怎么反应?
这一对军事应用的明确限制,出现在硅谷对军事商业化愈发热情的背景下。不过de Witte表示,他欢迎自己的模型被用于搜救任务。
de Witte是荷兰人,团队成员大多来自欧洲,这也塑造了公司的独特气质。他表示,招募Martin的原因之一,正是她曾公开辞去在Palantir的职务,以抗议该公司与美国移民及海关执法局的合作。
我不明白硅谷为什么要那样做,他说,我不在那里,是有原因的。
de Witte的伦理立场不仅限制了模型能做什么,也在引导他思考那些被AI浪潮抛在身后的人该何去何从。作为一名曾在青少年时期搭建私人《RuneScape》服务器并因此赚得150万美元的资深玩家,de Witte正在思考AI能力提升之后普通人的出路。
General Intuition近期推出了一个名为Nerve的平台——一个面向游戏玩家的工作市场,让他们能利用现有设备赚取收入。注册用户从数据标注工作入手,最终可逐步转向机器人远程操控等更高阶任务。de Witte指出,Medal的用户群体恰恰是最容易受到AI冲击的一代人,他希望他们能在即将到来的变革中占据一席之地。
de Witte希望General Intuition成为一个生态系统的支撑者,就像Anthropic或OpenAI那样——作为模型提供方,让他人在其技术之上构建应用。目前,这家初创公司已在游戏、仿真和机器人领域拥有少量客户。
我们不会去做一家自动驾驶汽车公司,de Witte说,我们要让下一个人做自动驾驶汽车公司这件事变得简单十倍。
公司表示,一旦API向更多客户开放,就能在多样化场景中检验模型的实力——例如在工厂车间的数字孪生中测试机器人、在游戏工作室中驱动类人机器人,或让四足机器人自主穿越危险环境。
四足机器人是General Intuition在现实世界中尝试的第一种实体形态,此外公司也测试过无人机及其他设备,包括在赛车游戏中对模型进行测试。
只要能用游戏手柄或键盘鼠标控制的东西,都能用,de Witte说。
我们会优先选择那些能让通用基础模型适配不同实体形态的客户,de Witte说,我们会根据客户能否提供有价值的真实世界数据、能否推动研究进展,以及是否拥有敏捷的内部团队,来决定优先合作的对象,这样我们才能真正成为嵌入式合作伙伴、共同学习成长。
Khkaiyun体育osla表示,正是General Intuition的专有数据推动公司走到今天,而持续获取竞争对手无法取得的数据,将是未来成功的关键。尽管演示效果令人瞩目,仿真到真实世界的迁移能力能否在规模化场景下成立,仍是一个尚无人完整回答的开放性问题。
A:General Intuition通过旗下平台Medal积累的数亿小时游戏录像进行训练,但核心并非画面本身,而是其中内嵌的动作标签——即玩家按下哪个按键、何时按下的精确记录。这些人类行动与反应数据,帮助模型学习时空推理,理解如何在空间与时间中运动,并区分自我与环境,从而建立更深层的因果理解能力。
Q2:General Intuition的四足机器人是怎么工作的,训练成本高吗?
A:该四足机器人由与游戏智能体相同的AI模型驱动,依靠单目摄像头感知周围环境并自主导航。令人意外的是,对机器人模型进行微调只需八分钟的真实世界数据,且这些数据是在户外街道上采集的,并非在机器人实际行进的室内环境中收集。这表明该模型具备一定的跨场景泛化能力,训练成本相对较低。
A:Nerve是General Intuition推出的一个面向游戏玩家的工作市场平台,让玩家利用现有的游戏设备赚取收入。用户注册后从数据标注任务起步,随着技能提升可逐步转向机器人远程操控等更高阶工作。这一平台的设计初衷,是让最容易受AI冲击的游戏玩家群体,能够参与并受益于AI技术的发展,而非仅仅被kaiyun体育其取代。