123,123

繼“三連發(fā)”后螞蟻靈波開(kāi)源具身世界模型LingBot-VA-焦點(diǎn)短訊

2026-01-30 13:23:46 來(lái)源：證券時(shí)報(bào)

(資料圖片僅供參考)

1月30日，繼空間感知模型、具身大模型與世界模型“三連發(fā)”后，螞蟻靈波科技宣布開(kāi)源具身世界模型LingBot-VA。LingBot-VA首次提出自回歸視頻-動(dòng)作世界建?？蚣?，將大規(guī)模視頻生成模型與機(jī)器人控制深度融合，模型在生成“下一步世界狀態(tài)”的同時(shí)，直接推演并輸出對(duì)應(yīng)的動(dòng)作序列，使機(jī)器人能夠像人一樣“邊推演、邊行動(dòng)”。

在真機(jī)評(píng)測(cè)中，LingBot-VA展現(xiàn)出對(duì)復(fù)雜物理交互的強(qiáng)適應(yīng)能力。面對(duì)長(zhǎng)時(shí)序任務(wù)（制作早餐、拾取螺絲）、高精度任務(wù)（插入試管、拆快遞）以及柔性與關(guān)節(jié)物體操控（疊衣物、疊褲子）這三大類(lèi)六項(xiàng)高難度挑戰(zhàn)，僅需30—50條真機(jī)演示數(shù)據(jù)即可完成適配，且任務(wù)成功率相較業(yè)界強(qiáng)基線(xiàn)Pi0.5平均提升20%。

在仿真評(píng)測(cè)中，LingBot-VA在高難度雙臂協(xié)同操作基準(zhǔn)RoboTwin2.0上首次將成功率提升至超過(guò)90%，在長(zhǎng)時(shí)序終身學(xué)習(xí)基準(zhǔn)LIBERO上達(dá)到98.5%平均成功率，均刷新了行業(yè)紀(jì)錄。

據(jù)悉，LingBot-VA采用Mixture-of-Transformers（MoT）架構(gòu)，讓視頻處理與動(dòng)作控制實(shí)現(xiàn)跨模態(tài)融合。通過(guò)獨(dú)特的閉環(huán)推演機(jī)制，模型在每一步生成時(shí)都會(huì)納入真實(shí)世界的實(shí)時(shí)反饋，確保持續(xù)生成的畫(huà)面與動(dòng)作不偏離物理現(xiàn)實(shí)，從而控制機(jī)器人完成高難度復(fù)雜任務(wù)。

為突破大規(guī)模視頻世界模型在機(jī)器人端側(cè)落地的計(jì)算瓶頸，LingBot-VA設(shè)計(jì)了異步推理管線(xiàn)，將動(dòng)作預(yù)測(cè)與電機(jī)執(zhí)行并行化處理；同時(shí)引入基于記憶緩存的持久化機(jī)制與噪聲歷史增強(qiáng)策略，讓推理時(shí)只需更少生成步驟即可輸出穩(wěn)定、精確的動(dòng)作指令。這一系列優(yōu)化使得LingBot-VA既擁有大模型的理解深度，又具備真機(jī)低延遲控制的響應(yīng)速度。

螞蟻靈波表示，承接前幾日開(kāi)源發(fā)布的LingBot-World（模擬環(huán)境）、LingBot-VLA（智能基座）與LingBot-Depth（空間感知），LingBot-VA探索出一條“世界模型賦能具身操作”的全新路徑。螞蟻集團(tuán)將持續(xù)依托InclusionAI社區(qū)開(kāi)源開(kāi)放，與行業(yè)共建具身智能基礎(chǔ)能力，加速構(gòu)建深度融合開(kāi)源開(kāi)放且服務(wù)于真實(shí)產(chǎn)業(yè)場(chǎng)景的AGI生態(tài)。

目前，LingBot-VA的模型權(quán)重、推理代碼已全面開(kāi)源。

標(biāo)簽：具身推理 va 機(jī)器人全模態(tài) 螞蟻靈波

繼“三連發(fā)”后螞蟻靈波開(kāi)源具身世界模型LingBot-VA-焦點(diǎn)短訊

相關(guān)文章

編輯推薦

繼“三連發(fā)”后 螞蟻靈波開(kāi)源具身世界模型LingBot-VA-焦點(diǎn)短訊

相關(guān)文章

編輯推薦

繼“三連發(fā)”后螞蟻靈波開(kāi)源具身世界模型LingBot-VA-焦點(diǎn)短訊