(資料圖片僅供參考)
1月30日,繼空間感知模型、具身大模型與世界模型“三連發(fā)”后,螞蟻靈波科技宣布開(kāi)源具身世界模型LingBot-VA。LingBot-VA首次提出自回歸視頻-動(dòng)作世界建??蚣?,將大規(guī)模視頻生成模型與機(jī)器人控制深度融合,模型在生成“下一步世界狀態(tài)”的同時(shí),直接推演并輸出對(duì)應(yīng)的動(dòng)作序列,使機(jī)器人能夠像人一樣“邊推演、邊行動(dòng)”。
在真機(jī)評(píng)測(cè)中,LingBot-VA展現(xiàn)出對(duì)復(fù)雜物理交互的強(qiáng)適應(yīng)能力。面對(duì)長(zhǎng)時(shí)序任務(wù)(制作早餐、拾取螺絲)、高精度任務(wù)(插入試管、拆快遞)以及柔性與關(guān)節(jié)物體操控(疊衣物、疊褲子)這三大類(lèi)六項(xiàng)高難度挑戰(zhàn),僅需30—50條真機(jī)演示數(shù)據(jù)即可完成適配,且任務(wù)成功率相較業(yè)界強(qiáng)基線(xiàn)Pi0.5平均提升20%。
在仿真評(píng)測(cè)中,LingBot-VA在高難度雙臂協(xié)同操作基準(zhǔn)RoboTwin2.0上首次將成功率提升至超過(guò)90%,在長(zhǎng)時(shí)序終身學(xué)習(xí)基準(zhǔn)LIBERO上達(dá)到98.5%平均成功率,均刷新了行業(yè)紀(jì)錄。
據(jù)悉,LingBot-VA采用Mixture-of-Transformers(MoT)架構(gòu),讓視頻處理與動(dòng)作控制實(shí)現(xiàn)跨模態(tài)融合。通過(guò)獨(dú)特的閉環(huán)推演機(jī)制,模型在每一步生成時(shí)都會(huì)納入真實(shí)世界的實(shí)時(shí)反饋,確保持續(xù)生成的畫(huà)面與動(dòng)作不偏離物理現(xiàn)實(shí),從而控制機(jī)器人完成高難度復(fù)雜任務(wù)。
為突破大規(guī)模視頻世界模型在機(jī)器人端側(cè)落地的計(jì)算瓶頸,LingBot-VA設(shè)計(jì)了異步推理管線(xiàn),將動(dòng)作預(yù)測(cè)與電機(jī)執(zhí)行并行化處理;同時(shí)引入基于記憶緩存的持久化機(jī)制與噪聲歷史增強(qiáng)策略,讓推理時(shí)只需更少生成步驟即可輸出穩(wěn)定、精確的動(dòng)作指令。這一系列優(yōu)化使得LingBot-VA既擁有大模型的理解深度,又具備真機(jī)低延遲控制的響應(yīng)速度。
螞蟻靈波表示,承接前幾日開(kāi)源發(fā)布的LingBot-World(模擬環(huán)境)、LingBot-VLA(智能基座)與LingBot-Depth(空間感知),LingBot-VA探索出一條“世界模型賦能具身操作”的全新路徑。螞蟻集團(tuán)將持續(xù)依托InclusionAI社區(qū)開(kāi)源開(kāi)放,與行業(yè)共建具身智能基礎(chǔ)能力,加速構(gòu)建深度融合開(kāi)源開(kāi)放且服務(wù)于真實(shí)產(chǎn)業(yè)場(chǎng)景的AGI生態(tài)。
目前,LingBot-VA的模型權(quán)重、推理代碼已全面開(kāi)源。


營(yíng)業(yè)執(zhí)照公示信息