久久精品视频18,欧美高清久久,中文日产日产乱码乱偷在线,国产成人+综合亚洲+天堂,免费观看黄色av网站,久久精品大全,欧美成人片在线

使用Q-TRANSFORMER神經(jīng)網(wǎng)絡(luò)控制智能體的制作方法

文檔序號:43008758發(fā)布日期:2025-09-15 12:28閱讀:5來源:國知局


背景技術(shù):

1、本說明書涉及使用神經(jīng)網(wǎng)絡(luò)來控制智能體(agent)。

2、神經(jīng)網(wǎng)絡(luò)是采用一個或多個非線性單元層來針對所接收的輸入預(yù)測輸出的機器學習模型。除了輸出層之外,一些神經(jīng)網(wǎng)絡(luò)還包括一個或多個隱藏層。每個隱藏層的輸出用作到網(wǎng)絡(luò)中的下一層(即,下一隱藏層或輸出層)的輸入。網(wǎng)絡(luò)的每個層根據(jù)參數(shù)的相應(yīng)集的當前值輸入來從所接收的輸入生成輸出。


技術(shù)實現(xiàn)思路

1、本說明書描述了一種在一個或多個位置的一個或多個計算機上被實現(xiàn)為計算機程序的系統(tǒng),該系統(tǒng)控制智能體,例如,機器人,該智能體通過選擇該智能體要執(zhí)行的動作并然后使該智能體執(zhí)行該動作來在環(huán)境中交互。

2、本說明書中描述的主題可以在特定實施例中實現(xiàn),以便實現(xiàn)以下優(yōu)點中的一個或多個。

3、本說明書描述了為q函數(shù)(即,在給定當前觀察和一個或多個先前觀察的情況下為動作生成q值的函數(shù))提供可擴展表示的技術(shù)。具體地,通過離散化給定動作的每個動作維度,并將每個動作維度的q值表示為單獨的詞元,策略系統(tǒng)可以應(yīng)用有效的高容量序列建模技術(shù)進行q學習,即,可以使用transformer(變換器)神經(jīng)網(wǎng)絡(luò)(也稱為“q-transformer神經(jīng)網(wǎng)絡(luò)”)自回歸地生成沿不同動作維度的子動作的q值。通過利用transformer神經(jīng)網(wǎng)絡(luò)并自回歸地生成q值,策略系統(tǒng)可以比其他方法更有效地控制智能體,例如機器人。換句話說,所描述的技術(shù)允許改善對機器人的控制,從而改善機器人技術(shù)領(lǐng)域。另外,利用transformer神經(jīng)網(wǎng)絡(luò),允許該系統(tǒng)有效地將自然語言指令結(jié)合到神經(jīng)網(wǎng)絡(luò)的輸入中,從而允許該系統(tǒng)在再訓(xùn)練transformer神經(jīng)網(wǎng)絡(luò)的情況下使用同一個transformer神經(jīng)網(wǎng)絡(luò)有效地控制智能體執(zhí)行多個不同的任務(wù)(即,在通過自然語言指令指定當前任務(wù)的情況下)。

4、另外,本說明書還描述了改進transformer神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的技術(shù),以進一步提高策略系統(tǒng)的性能。例如,該系統(tǒng)可以通過離線q學習在從多個不同來源收集的大型離線數(shù)據(jù)集(例如專家演示和自主收集的數(shù)據(jù)兩者)上訓(xùn)練神經(jīng)網(wǎng)絡(luò),即使來自不同來源的數(shù)據(jù)質(zhì)量參差不齊?!百|(zhì)量參差不齊的(mixed?quality)”數(shù)據(jù)是指包括大量高質(zhì)量軌跡(即,成功執(zhí)行對應(yīng)任務(wù)并接收高回報的軌跡)和大量低質(zhì)量軌跡(即,智能體隨機交互的軌跡(因此任何給定任務(wù)的回報都很低)或智能體未能執(zhí)行對應(yīng)任務(wù)的軌跡)的數(shù)據(jù)集。這允許策略系統(tǒng)在訓(xùn)練后能夠更好地泛化到新任務(wù)。

5、作為另一示例,該系統(tǒng)可以通過自回歸q學習來訓(xùn)練transformer神經(jīng)網(wǎng)絡(luò),并且可以結(jié)合保守正則化,以防止策略系統(tǒng)高估訓(xùn)練數(shù)據(jù)集中未能很好表示的動作的q值,從而提高該系統(tǒng)在訓(xùn)練后的性能。

6、作為又一示例,該系統(tǒng)可以將蒙特卡洛(mc)回報結(jié)合到訓(xùn)練中,從而提高訓(xùn)練效率。例如,通過結(jié)合mc回報,該系統(tǒng)可以在訓(xùn)練期間加速學習進度,特別是當數(shù)據(jù)集質(zhì)量參差不齊時。

7、本說明書的主題的一個或多個實施例的細節(jié)在附圖和以下描述中進行闡述。本主題的其他特征、方面和優(yōu)點根據(jù)描述、附圖和權(quán)利要求將變得顯而易見。



技術(shù)特征:

1.一種由一個或多個計算機執(zhí)行并用于控制與環(huán)境交互的智能體的方法,所述方法包括在多個時間步中的每個時間步處:

2.如權(quán)利要求1所述的方法,其中所述環(huán)境是現(xiàn)實世界環(huán)境并且所述智能體是機器人。

3.如權(quán)利要求1或權(quán)利要求2所述的方法,其中對于所述動作維度中的一個或多個動作維度,針對所述動作維度的所述候選子動作集表示對針對所述動作維度的子動作的連續(xù)空間的離散化。

4.如任一項前述權(quán)利要求所述的方法,進一步包括:

5.如任一項前述權(quán)利要求所述的方法,其中所述當前觀察和所述歷史數(shù)據(jù)中的所述觀察各自包括所述環(huán)境的一個或多個圖像。

6.如權(quán)利要求5在從屬于權(quán)利要求4時所述的方法,進一步包括:

7.如權(quán)利要求6所述的方法,其中至少從所述當前觀察的所述經(jīng)編碼表示和所述歷史中的所述觀察的相應(yīng)經(jīng)編碼表示生成所述輸入詞元的輸入序列包括:

8.如權(quán)利要求7所述的方法,其中所述輸入詞元的輸入序列包括針對所述當前觀察的所述圖像詞元序列和已經(jīng)從所述觀察的所述相應(yīng)經(jīng)編碼表示生成的針對所述歷史中的所述觀察中的每個觀察的相應(yīng)圖像詞元序列。

9.如權(quán)利要求8所述的方法,其中將定位編碼應(yīng)用于針對所述觀察圖像的所述圖像詞元序列以及針對一個或多個早期觀察的相應(yīng)圖像詞元序列中的每個圖像詞元。

10.如權(quán)利要求6至9中任一項所述的方法,其中所述經(jīng)編碼表示包括特征圖,所述特征圖包括針對所述當前觀察中的多個區(qū)域中的每個區(qū)域的相應(yīng)特征向量,并且其中從所述觀察的所述經(jīng)編碼表示生成針對所述觀察圖像的圖像詞元序列包括:

11.如權(quán)利要求10所述的方法,其中從所述觀察的所述經(jīng)編碼表示生成針對所述觀察圖像的圖像詞元序列包括:

12.如權(quán)利要求6至11中任一項所述的方法,其中所述圖像編碼器神經(jīng)網(wǎng)絡(luò)包括一個或多個條件化層,每個條件化層被配置為接收所述圖像編碼器神經(jīng)網(wǎng)絡(luò)輸出的相應(yīng)中間層的相應(yīng)中間輸出和所述自然語言指令的所述經(jīng)編碼表示,并(i)使用所述自然語言指令的所述經(jīng)編碼表示來更新所述圖像編碼器神經(jīng)網(wǎng)絡(luò)的所述相應(yīng)中間輸出以及(ii)將所更新的相應(yīng)中間輸出作為輸入提供給所述圖像編碼器神經(jīng)網(wǎng)絡(luò)的相應(yīng)后續(xù)中間層。

13.如權(quán)利要求12所述的方法,其中所述一個或多個條件化層是逐特征線性調(diào)制film層。

14.如權(quán)利要求12或13中任一項所述的方法,其中所述圖像編碼器神經(jīng)網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)并且所述相應(yīng)中間層、所述相應(yīng)后續(xù)層或兩者是卷積層。

15.如任一項前述權(quán)利要求所述的方法,其中所述transformer是包括多個自注意力層塊的僅解碼器transformer。

16.如任一項前述權(quán)利要求所述的方法,其中選擇針對所述動作維度的子動作包括:

17.如任一項前述權(quán)利要求在從屬于權(quán)利要求6時所述的方法,其中所述圖像編碼器神經(jīng)網(wǎng)絡(luò)和所述transformer神經(jīng)網(wǎng)絡(luò)已經(jīng)在訓(xùn)練數(shù)據(jù)的集上被聯(lián)合訓(xùn)練。

18.如權(quán)利要求17所述的方法,其中在所述聯(lián)合訓(xùn)練之前,所述圖像編碼器神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像分類任務(wù)上被預(yù)訓(xùn)練。

19.如權(quán)利要求18在從屬于權(quán)利要求12時所述的方法,其中所述圖像編碼器神經(jīng)網(wǎng)絡(luò)不包括用于所述預(yù)訓(xùn)練的所述一個或多個條件化層。

20.如權(quán)利要求17至19中任一項在從屬于權(quán)利要求11時所述的方法,其中每個條件化層在所述聯(lián)合訓(xùn)練之前被初始化為充當對所述對應(yīng)相應(yīng)中間輸出的恒等變換。

21.如權(quán)利要求17至20中任一項在從屬于權(quán)利要求11時所述的方法,其中所述經(jīng)學習的模塊也已經(jīng)作為所述聯(lián)合訓(xùn)練的部分被訓(xùn)練。

22.如權(quán)利要求17至21中任一項所述的方法,其中所述訓(xùn)練數(shù)據(jù)包括模擬數(shù)據(jù)。

23.如權(quán)利要求17至22中任一項所述的方法,其中所述訓(xùn)練數(shù)據(jù)包括現(xiàn)實世界數(shù)據(jù)。

24.如權(quán)利要求23所述的方法,其中所述訓(xùn)練數(shù)據(jù)包括模擬數(shù)據(jù)和現(xiàn)實世界數(shù)據(jù)兩者。

25.如任一項前述權(quán)利要求在從屬于權(quán)利要求6時所述的方法,進一步包括:通過使用文本編碼器神經(jīng)網(wǎng)絡(luò)來處理所述自然語言文本序列以生成所述經(jīng)編碼表示的嵌入來生成所述自然語言文本序列的所述經(jīng)編碼表示。

26.如權(quán)利要求25所述的方法,其中所述文本編碼器神經(jīng)網(wǎng)絡(luò)在文本表示學習任務(wù)上被預(yù)訓(xùn)練。

27.如權(quán)利要求26在從屬于權(quán)利要求17時所述的方法,其中所述文本編碼器神經(jīng)網(wǎng)絡(luò)在所述聯(lián)合訓(xùn)練期間被微調(diào)。

28.如權(quán)利要求26在從屬于權(quán)利要求17時所述的方法,其中所述文本編碼器神經(jīng)網(wǎng)絡(luò)在所述聯(lián)合訓(xùn)練期間被保持凍結(jié)。

29.如任一項前述權(quán)利要求所述的方法,其中所述transformer已經(jīng)通過離線強化學習在離線數(shù)據(jù)集上進行了訓(xùn)練。

30.如權(quán)利要求29所述的方法,其中所述transformer已經(jīng)通過離線q學習在離線數(shù)據(jù)集上進行了訓(xùn)練。

31.如權(quán)利要求30所述的方法,其中所述離線q學習是保守的離線q學習技術(shù)。

32.如任一項前述權(quán)利要求所述的方法,其中對于所述維度序列中的最后一個動作維度,針對所述動作維度的所述候選子動作集中的所述子動作中的每個子動作的所述相應(yīng)q值表示響應(yīng)于所述智能體執(zhí)行包括以下各項的動作而將接收到的回報的估計:針對最后一個動作維度的候選子動作;以及針對所述維度序列中的每個先前動作維度,已為所述動作維度選擇的所述子動作。

33.如任一項前述權(quán)利要求所述的方法,其中對于針對除最后一個動作維度之外的每個給定動作維度的每個給定候選子動作,針對所述給定候選子動作的所述相應(yīng)q值表示響應(yīng)于所述智能體執(zhí)行包括以下各項的動作而將接收到的回報的估計:

34.如任一項前述權(quán)利要求所述的方法,其中所述智能體是機器人并且所述一個或多個計算機在所述機器人機上。

35.如任一項前述權(quán)利要求在從屬于權(quán)利要求15時所述的方法,其中每個自注意力層塊應(yīng)用因果自注意力機制。

36.一種控制機器人的方法,所述方法包括在多個時間步中的每個時間步處:

37.如權(quán)利要求36所述的方法,其中所述機器人的所述控制系統(tǒng)在所述機器人機上。

38.如權(quán)利要求37所述的方法,其中所述策略系統(tǒng)在所述機器人機上。

39.如權(quán)利要求37所述的方法,其中:

40.一種訓(xùn)練如任一項前述權(quán)利要求所述的transformer神經(jīng)網(wǎng)絡(luò)的方法,所述方法包括:

41.如權(quán)利要求40所述的方法,其中對于每個動作維度,所述目標鼓勵不在針對所述維度的所述訓(xùn)練動作中的子動作的所述相應(yīng)q值等于零。

42.如權(quán)利要求41所述的方法,其中對于每個動作維度,所述目標衡量指派給不在針對所述維度的所述訓(xùn)練動作中的所述子動作中的至少一個子動作的q值的平方。

43.如權(quán)利要求40至42中任一項所述的方法,針對每個動作維度并使用所述經(jīng)驗元組中的所述獎勵,為針對所述動作維度的所述訓(xùn)練動作中的所述子動作生成相應(yīng)的目標q值包括:

44.如權(quán)利要求43所述的方法,其中對所述輸入序列應(yīng)用自回歸q目標最大化包括通過使用如上在權(quán)利要求1至35中的任一項中描述的所述transformer神經(jīng)網(wǎng)絡(luò)并將所述參數(shù)值設(shè)置為目標值而處理所述輸入序列來選擇動作。

45.如權(quán)利要求43或44中任一項所述的方法,進一步包括:

46.如權(quán)利要求40至45中任一項所述的方法,其中訓(xùn)練所述transformer神經(jīng)網(wǎng)絡(luò)進一步包括訓(xùn)練所述圖像編碼器神經(jīng)網(wǎng)絡(luò)、所述經(jīng)學習的模塊或兩者。

47.一種系統(tǒng),包括一個或多個計算機和存儲指令的一個或多個存儲裝置,所述指令在由所述一個或多個計算機執(zhí)行時致使所述一個或多個計算機執(zhí)行如權(quán)利要求1至46中任一項所述的相應(yīng)方法的操作。

48.一個或多個存儲指令的計算機存儲介質(zhì),所述指令在由一個或多個計算機執(zhí)行時致使所述一個或多個計算機執(zhí)行如權(quán)利要求1至46中任一項所述的相應(yīng)方法的操作。


技術(shù)總結(jié)
用于使用Transformer神經(jīng)網(wǎng)絡(luò)來控制與環(huán)境交互的智能體的方法、系統(tǒng)和設(shè)備,包括被編碼在計算機存儲介質(zhì)上的計算機程序。

技術(shù)研發(fā)人員:Y·切博塔爾,Q·H·旺,K·豪斯曼,F·夏,A·伊爾潘,Y·盧,T·于,A·庫馬爾,K·L·佩爾奇,A·赫爾佐格,基爾塔納·PG,J·伊巴茲,O·納楚姆,K·K·勞,C·B·芬恩,S·V·萊文
受保護的技術(shù)使用者:谷歌有限責任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/9/14
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1