好家伙!开yun体育网
机器东说念主已入厂打工分拣快递,手法娴熟和东说念主类一模相同。
前几天,Figure 推出了端到端通用收尾模子——Helix,能让机器东说念主像东说念主相同感知、清醒和行为。
现时,是时候熏陶最新效力了。
视频中,一批Figure 02走上分娩一线,次第井然地分拣快递,还能正确治愈条形码位置以供机器扫描……
最病笃的是,按照官方说法,这次场景微调只用了 30 天。而手脚对比,第一个客户案例用了 12 个月之久。
端到端学习步伐让 Figure 的机器东说念主简略快速学习新任务!
面对如斯进化速率,网友们直呼:咱们完啦!
背后要道:立异了 Helix 系统 1
除了视频,针对本次实验的高速、小包装物流场景,Figure 还公开了Helix 推崇的最新阐发。
在和 OpenAI 推辞之后,就在上周五,Figure 公布了首个效力Helix。
手脚一个端到端通用收尾模子,只需当然言语请示,机器东说念主就能提起任何东西,哪怕是从没见过的东西(比如这个开朗的小仙东说念主掌)。
更有兴味的是,两个机器东说念主也不错共同伙同,而且用的是归并组神经相聚。
证据那时的先容,Helix 主要由两个系统构成,两个系统经过端到端教师,何况不错进行通讯。
系统 1:80M 参数的交叉精采力 Transformer,用于处理底层收尾。
系统 2:基于在互联网限度数据上预教师的 7B 开源 VLM,用于场景清醒和言语清醒。
而这一次,Figure 在物流场景重心对系统 1(底层收尾)进行了一系列立异:
1、隐式立体视觉(Implicit stereo vision):增强了 3D 空间感知,使机器东说念主动作更精确;
2、多圭臬视觉暗示(Multi-scale visual representation):聚积细节和合座场景清醒,提高操作精度;
3、学习视觉实质感知(Learned visual proprioceptio):每个 Figure 机器东说念主现时齐不错自我校准,简化跨机器东说念主技巧移动;
4、开通形状(Sport mode):使用浅近的 test-time 加快期间,同期保持高获胜率和更快的扩充速率。
最病笃的是,Figure 针对该特定场景,进一步商酌了数据质地和数目之间的衡量联系,并初步发现:
仅用 8 小时全心挑选的数据就能教师出一个天真且适应性强的战略。
底下具体张开。
在物流场景下,要道法子包括包装处理和分类,主如果需要将包裹在传送带上转动并确保标签正确扫描。
听起来是不是很浅近,但如果要让机器东说念主取代东说念主类来完成这项使命,濒临的挑战在于:
包裹的尺寸、时事、分量等各别,机器东说念主不仅要能提起来,而且需要细目最好执取和转动时候,致使放错了之后还能立马检阅。
为了完了上述指标,Figure 领先立异了 Helix 系统 1 的视觉身手。
新一代系统 1 通过弃取立体视觉主干相聚和多圭臬特征索求相聚来增强其空间清醒身手。
浅近说,系统不再孤立处理来自每个录像头的图像特征,而是领先在多圭臬立体积存合合并两个录像头的特征,然后再进行标记化(Tokenize)处理。
这么作念的自制是,保持了输入到交叉精采力 transformer 的视觉 tokens 总和不变,幸免了蓄意支拨。
同期,多圭臬特征索求相聚简略同期捕捉到细节和更泛泛的高下文信息,这有助于提高操作的准确性和可靠性。
此外,为了搞定在多个机器东说念主上部署合股战略时遭受的挑战,以及若何通过在线自我校准来完了跨机器东说念主战略移动。
举例由于机器东说念主硬件辩认导致的不雅察和动作空间的散播偏移,传统的手动校准步伐不适用于大限度机器东说念主群体。
Figure 教师了一个视觉自体嗅觉模子(visual proprioception model),这个模子不错让每个机器东说念主通过自己的视觉输入来自我校准,估算出机械臂结尾(即执取物体的部分)的精确位置和姿态。
何况这种自我校准是在线进行的,也等于说机器东说念主不错在使命的同期进行校准,这么就能最猛进度地减少因校准而需要住手使命的时候。
趁机一提,教师流程中,Figure 摈斥了那些较慢的、遗漏的或失败的案例,不外有利保留了包含检阅行为的案例(非遥控操作员导致,当然产生)。
终末,为了达到并逾越东说念主类的操作速率,Figure 弃取了一种被称为"开通形状"的 test-time 加快期间。
具体来说,他们让系统 1 以每秒 200 次的频率输出一系列动作,这些动作被称为动作"块"(action " chunks ")。
然后弃取了一种插值步伐来加快这些动作块的扩充。插值是一种数学步伐,不错在原少见据点之间生成新的数据点。在这里,他们将底本的动作块(比如代表 T 毫秒的动作)通过插值裁减为 0.8T 毫秒的动作块,然而仍然以每秒 200 次的频率扩充这些裁减后的动作块。
这种步伐不需要转变机器东说念主的教师流程,仅仅在 test-time 对动作扩充进行加快。通过这种步伐,Figure 机器东说念主简略在推行测试中完了高达 20%的速率提高。
Figure 首创东说念主:异日四年托福 10 万台
总之,期间升级让 Figure 走进工场的速率更快了。
官方提到的第 1 个客户,应该是指旧年 8 月发布的 Figure 02 进良马工场从事汽车安设的事儿。
那时良马工场花了12 个月才给机器东说念主安排好允洽的使命,而这一次,机器东说念主负责上岗物流仅用了 30 天时候。
也难怪 Figure 首创东说念主有底气文书,异日四年要托福 10 万台东说念主形机器东说念主。
另一方面,跟着国表里各家机器东说念主纷繁"进厂打工",全球徐徐达成了一个共鸣:
2025 是机器东说念主量产要道之年
从各家 demo 来看,东说念主形机器东说念主的期间已基本练习,因此接下来的争夺主要围绕量产张开,而且要往推行分娩场景走了。
比如在一家上海机器东说念主工场内,多数"异日工东说念主"正在分娩 ing。
嗯,齐卷起来吧!
参考一语气:
[ 1 ] https://x.com/Figure_robot/status/1894781226676064459
[ 2 ] https://www.reddit.com/r/singularity/comments/1iymrxs/shanghai_robot_factory_where_humanoid_robots_are/开yun体育网