2025 年秋裝智能工作室正被分會活動:特斯拉上海超級工廠宣布 Optimus 2.0 量產(chǎn)下線,同步開放開發(fā)者平臺提供運(yùn)動控制與環(huán)境采集 SDK,嘗試通過生態(tài)共建破解數(shù)據(jù)孤島難題;英偉達(dá)則在 SIGGRAPH 大會上推出物理 AI 全棧方案,其 全宇宙 平臺結(jié)合 Cosmos 世界模型可生成高質(zhì)量合成數(shù)據(jù),直指真機(jī)數(shù)據(jù)的痛點(diǎn)。
這些熱點(diǎn)事件共同指向行業(yè)共識:曾被算法創(chuàng)新忽視的數(shù)據(jù)問題,才是智能落地的根本問題解決。
針對這個問題,近日,我們與跨維智能創(chuàng)始人、香港中文大學(xué)(深圳)教授賈奎,香港中文大學(xué)(深圳)副教授、工具身決策實(shí)驗(yàn)室主任劉桂良進(jìn)行了一場深度對話與探討,試圖找到突破工具身智能學(xué)習(xí)枷鎖的關(guān)鍵。
什么是 效率定律 ?
其與 縮放定律 有何區(qū)別?
1. 縮放定律 在身體智能領(lǐng)域帶來了什么挑戰(zhàn)呢?
賈奎:標(biāo)度律 是大語言模型發(fā)展過程中所觀察到的經(jīng)驗(yàn)法則,即模型的性能與數(shù)據(jù)量、模型容量/參數(shù)量、算力之間分別有一個冪函數(shù)關(guān)系【1,2】,此經(jīng)驗(yàn)法則有助于在給定的資源條件下,指導(dǎo)如何存在最優(yōu)模型性能為目標(biāo)的數(shù)據(jù)、模型與算力分配。
效應(yīng)的有效性是建立在訓(xùn)練大語言模型所需要的海量文本數(shù)據(jù)存在的前提下的,但對于訓(xùn)練具身智能模型來說,如上所說,領(lǐng)域還沒有建立能夠支撐標(biāo)度律的數(shù)據(jù)范式,那么效應(yīng)本身也無法發(fā)揮指導(dǎo)作用。
具身智能的發(fā)展需要能夠自身當(dāng)前階段有更好指導(dǎo)意義的新決策,因此在【3 】中,我們基于縮放定律推導(dǎo)出新的適用當(dāng)前具身智能發(fā)展的新決策,命名為 效率定律。
也就是說,我們首先定義一個名為“數(shù)據(jù)生成速率”的量 r_D,在最大允許的模型生產(chǎn)時長的條件下,模型性能與 r_D 存在一個冪函數(shù)關(guān)系,并受控于一個模型容量的冪函數(shù)與一個 r_D 的冪函數(shù)的加和,進(jìn)一步啟動,在有限時間內(nèi),更高的 r_D 能顯著提升學(xué)習(xí)效率,從而通過訓(xùn)練大容量模型提升實(shí)際性能,而過低的 r_D 會導(dǎo)致模型進(jìn)入“數(shù)據(jù)稀缺區(qū)”,使規(guī)律故障。
通俗解釋,效率定律的核心觀點(diǎn)是:在有限的高效時間內(nèi),具身模型性能上限的,是生成高質(zhì)量數(shù)據(jù)的速率(我們稱為r_D)。數(shù)據(jù)生成速率越快,可以越快地“吃飽”一個大模型,從而突破性能瓶頸。如果速度太慢,模型就會一直處于‘吃不飽’的‘數(shù)據(jù)稀缺區(qū)’,再大的潛力也發(fā)揮不出來。所以,具身智能的重點(diǎn)必須從‘堆數(shù)據(jù)’轉(zhuǎn)向’造數(shù)據(jù)’。
因此,車身智能的發(fā)展必須從“采數(shù)據(jù)”和“堆數(shù)據(jù)”轉(zhuǎn)向“高效地造數(shù)據(jù)”;通過提高高質(zhì)量數(shù)據(jù)的生成與利用效率,建立起支撐車身智能發(fā)展的新學(xué)習(xí)范式。
為什么世界模型需要絕對的物理精確性?
2. 當(dāng)前基于視頻生成的世界模型,有什么不足之處?
賈奎:當(dāng)前基于視頻生成的世界模型【4,5 】雖然能夠生成視覺上連貫、動態(tài)一致的視頻序列,但它們主要在像素維度進(jìn)行統(tǒng)計(jì)學(xué)習(xí),追求的是“新穎”而不是“物理正確” 【6 】。
此類模型往往缺乏對真實(shí)規(guī)律的理解,無法準(zhǔn)確模擬如摩擦、質(zhì)量、受力、流動等簡單的動力學(xué)機(jī)制,其生成結(jié)果更多依賴于訓(xùn)練數(shù)據(jù)的分配因果關(guān)系計(jì)算,因此在分配外模型時很容易產(chǎn)生違反物理邏輯常識的反事實(shí)場景。
對于具身智能而言,學(xué)習(xí)的核心在于建立真實(shí)世界中的感知、動作、反饋循環(huán),智能體必須遵循牛頓力學(xué)等物理法則來實(shí)現(xiàn)的行為。因此,具身智能所依賴的世界模型【7,8 】必須具備物理精確性,能夠針對剛體、軟體、流動等顯著式三維表征,根據(jù)動力學(xué)、運(yùn)動學(xué)原理預(yù)測世界狀態(tài)變化計(jì)算系統(tǒng)的內(nèi)部狀態(tài),推理被現(xiàn)實(shí)或未達(dá)到的元素變化,保持過程中的一致性,并支持世界狀態(tài)的存儲與恢復(fù),以實(shí)現(xiàn)精確的仿真與規(guī)劃。唯有如此,世界模型才能為具身智能提供符合真實(shí)物理約束的環(huán)境基礎(chǔ),支撐其在世界中的后續(xù)學(xué)習(xí)與決策。