8月14日消息,據(jù)媒體報(bào)道,智元機(jī)器人正式推出業(yè)內(nèi)首個(gè)開源的機(jī)器人世界模型平臺——Genie Envisioner (GE)。
GE 平臺顛覆了傳統(tǒng)機(jī)器人學(xué)習(xí)流程,創(chuàng)新性地構(gòu)建了一個(gè)以統(tǒng)一視頻生成世界模型為核心的閉環(huán)系統(tǒng)。該系統(tǒng)整合了未來幀預(yù)測、策略學(xué)習(xí)與仿真評估,使機(jī)器人能夠在單一模型中完成從感知環(huán)境、思考決策到執(zhí)行動(dòng)作的端到端處理。
平臺的核心優(yōu)勢在于其無縫集成的閉環(huán)設(shè)計(jì):GE-Base 模型基于超百萬條數(shù)據(jù)訓(xùn)練,擅長解析環(huán)境布局與動(dòng)作意圖;GE-Act 動(dòng)作解碼器負(fù)責(zé)將理解轉(zhuǎn)化為具體動(dòng)作指令;而GE-Sim 則作為基于動(dòng)作條件的神經(jīng)仿真器,利用分層機(jī)制實(shí)現(xiàn)精準(zhǔn)視覺預(yù)測。三者協(xié)同工作,驅(qū)動(dòng)整個(gè)平臺高效運(yùn)行。
為構(gòu)建這一強(qiáng)大平臺,智元機(jī)器人利用了約3000小時(shí)的真實(shí)機(jī)器人操控視頻數(shù)據(jù)。這些寶貴數(shù)據(jù)幫助 GE 建立了從語言指令到視覺空間的直接映射,完整保留了交互的時(shí)空信息,為模型的準(zhǔn)確性和實(shí)用性奠定了堅(jiān)實(shí)基礎(chǔ)。
在實(shí)際測試中,搭載 GE-Act 組件的機(jī)器人已成功完成制作三明治、倒茶、擦拭桌面等多項(xiàng)任務(wù)。這有力驗(yàn)證了 GE 平臺的性能,并展示了其在提升機(jī)器人智能交互與任務(wù)執(zhí)行能力方面的廣闊應(yīng)用前景。