精品国产蜜桃一区二区三区_满足的呻吟小芳笫二章_97成人在线观看_纯肉大尺度肉动漫在线观看

豆包開源視頻生成模型VideoWorld:首創(chuàng)免語言模型依賴認知世界

IT之家 2 月 10 日消息,豆包大模型團隊聯(lián)合北京交通大學、中國科學技術大學共同開發(fā)的視頻生成實驗模型“VideoWorld”今日開源。不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型,VideoWorld 在業(yè)界首次實現(xiàn)無需依賴語言模型,即可認知世界。

據(jù)介紹,現(xiàn)有模型大多依賴語言或標簽數(shù)據(jù)學習知識,很少涉及純視覺信號的學習。然而,語言并不能捕捉真實世界中的所有知識。例如折紙、打領結(jié)等復雜任務,難以通過語言清晰表達。而 VideoWorld 去掉語言模型,實現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務。

同時,它基于一種潛在動態(tài)模型,可高效壓縮視頻幀間的變化信息,顯著提升知識學習效率和效果。在不依賴任何強化學習搜索或獎勵函數(shù)機制前提下,VideoWorld 達到了專業(yè) 5 段 9x9 圍棋水平,并能夠在多種環(huán)境中,執(zhí)行機器人任務。


相關內(nèi)容