谷歌研究科學家:ChatGPT秘密武器的演進與局限_每日動態
    2023-04-17 16:57:56 來源: CSDN博客

    來源|TalkRL

    OneFlow編譯 翻譯|徐佳渝、賈川 ?

    同樣是基于GPT預訓練模型,為什么ChatGPT的效果要遠遠超出GPT-3等前幾代模型?答案已經揭曉,成就ChatGPT的秘密武器在于RLHF,也就是人類反饋的強化學習。


    (資料圖)

    在預訓練階段,GPT模型學習關于這個世界的一切,而在RLHF階段,ChatGPT更關注的讓模型輸出正確、有益的恰當結果,并對結果不斷進行微調。

    具體而言,RLHF階段的調優又分為三大步驟:第一步:通過監督學習,用人類對不同提示的“理想”回答數據微調LLM;第二步:LLM 為每個提示提供多個答案,然后由人工評估員對這些答案進行排名(該排名用于訓練獎勵模型);第三步:用近端策略優化(PPO)模型來優化LLM的獎勵模型。

    此前,ChatGPT負責人John Schulman介紹了RLHF想法的起源,關鍵在于他們在語言模型中應用強化學習,使用人類反饋去定義獎勵函數。此外,OpenAI的RLHF所使用的諸多技術也是基于前人研究基礎上組合而成的成果,其中就包括Natasha Jaques的工作。

    Natasha是Google Brain的高級研究科學家,OpenAI的不少工作引用了她所發表的與RLHF和對話模型相關的強化學習論文。在近期Robin Ranjit Singh Chauhan主持的TalkRL播客節目中,她從第三方視角,介紹了對RLHF及其獎勵模型相關思路,以及對強化學習研究與AGI發展等方面的看法。

    目前,她的研究重點是社交強化學習(Social Reinforcement Learning),開發結合來自社交學習和多智能體訓練的見解的算法,以提高AI智能體的學習、泛化、協作以及人機交互能力。2024年1月,她將加入華盛頓大學計算機科學學院擔任助理教授。

    (以下內容經授權后由OneFlow編譯發布,譯文轉載請聯系OneFlow獲得授權。來源:https://www.talkrl.com/episodes/natasha-jaques-2)

    1

    RLHF相關研究與成本效益

    Robin Chauhan:你很早就開始了人類反饋的強化學習(RLHF)以及對話模型這方面的類似研究,而且OpenAI發表的許多重要論文引用了你的研究成果。能否談談你的研究與OpenAI當前的研究和這些模型之間的聯系?

    Natasha Jaques:回到2016年,當時我正在思考如何利用預訓練語言模型進行微調。具體來說,我關注的是LSTM模型,并嘗試使用強化學習對其進行微調。那時,我關注的點不在語言本身,而是音樂生成和分子生成之類的方法,例如生成類似藥物分子的方法。

    在我看來,分子生成是一個很好的示例。我們可以基于已知分子數據集去訓練一個監督模型,并生成新的分子,但是這些分子可能缺乏我們所需的特性,如易于合成藥物。因此,我們還需要對分子的“合成可及性(synthetic accessibility)”進行評估。但僅依靠數據集訓練是不夠的,因為這樣無法得到優化的分子。如果僅僅優化分子的合成可及性,也可能會生成一些無用的分子。

    因此,我們需要對這兩個方面進行評估和優化。對于這一問題,我們可以使用強化學習來優化藥物相似性(drug likeness)或合成可及性,但由于數據存在缺陷,這種方法并不完美。

    我們提出了一個解決方案:首先在數據集上進行預訓練,然后再使用強化學習來優化某些獎勵,同時最小化預訓練策略與當前策略之間的KL散度。這種方法可以靈活地結合監督學習和強化學習,使用監督學習來獲得數據集中的有用信息,同時使用強化學習來優化在數據分布空間內具有高回報的序列。可以看出,這與當前使用的RLHF方法密切相關。

    在該技術中,我們首先在數據集上對大型語言模型進行預訓練,然后通過人類反饋來優化模型,同時最小化優化模型與預訓練先驗模型之間的KL散度,這對于RLHF框架有重要意義。

    同時,我也在研究從人類反饋中學習的RLHF方法。2019年前后,我們采用了同樣的KL控制方法,即讓對話模型嘗試優化與人類交談獲得的信號,而非讓人類評價對話的好壞,同時采用與OpenAI的RLHF算法不同的方式來實現偏好排序。

    我們的目標是從與人類對話的隱含信號中學習,而非僅僅依靠人類的評價來進行優化。我們不需要人們額外提供反饋,而是通過分析文本的情感等隱含信號來為模型提供獎勵信號。

    例如,當對話中的人聽起來普遍高興時,我們就會將其視為正面獎勵信號來訓練模型。反之,當他們聽起來沮喪或困惑時,可能是模型說了一些胡話,我們會將其視為負面獎勵信號。因此,我們使用同樣的技術來優化這些信號,以提高模型的表現。

    Robin Chauhan:這聽起來很像ChatGPT現在正在進行的工作。也許函數逼近器(function approximator)略有不同,或是獲得反饋的方式有所不同,但從底層原理來看,它實際上基于RLHF。

    Natasha Jaques:沒錯,不過也有一些關鍵區別。OpenAI采用了不同的方法來處理人類反饋,該方法與我們在2019年的論文中所使用的有所不同,區別在于他們訓練了一個獎勵模型。他們的方法是請一群人為兩個輸出評分,然后通過訓練模型來逼近這些評分。實際上,早在OpenAI探索使用人類偏好進行深度強化學習研究時,就已經提出過這個想法。

    相比之下,我在2019年的研究是關于離線強化學習(offline RL)。當時,我使用了特定輸出的實際人類評分作為獎勵樣本進行訓練,但缺乏一個通用的獎勵模型。由于訓練獎勵模型的方法可以進行多次采樣,實際上具有良好的可擴展性。

    Robin Chauhan:OpenAI聯合創始人和PPO算法發明者John Schulman致力于研究RLHF。他談到ChatGPT的兄弟模型InstructGPT需要大量的人類反饋。此外,需要詳細而冗長的評分說明來評估人類反饋,而獲取這些人類反饋需要付出相當大的成本。這種成本會限制RLHF的應用嗎?還是說成本并不重要,從回報來看完全值得?

    Natasha Jaques:在InstructGPT之前,OpenAI就已經在摘要(summarization)方面進行了大量的研究。而在摘要研究中,能夠有效運用RLHF的關鍵因素之一,是投入大量精力獲取高質量的人類數據。

    在OpenAI的一篇摘要研究論文中,他們采用了一種更好的評估者招募方法,研究人員與評估者共享Slack群組,并回答評估者的問題以確保評估者與研究人員保持一致。這樣的投入顯然是非常昂貴的。

    值得一提的是,在InstructGPT可以看到一個現象:使用RLHF訓練的13億參數模型的表現要優于使用監督學習訓練的1750億參數模型。也就是說,只需使用RLHF,效果就可以趕超100倍大小的模型,而訓練100倍大小的模型所需的計算成本相當昂貴。雖然OpenAI并未公開他們用于收集人類數據和訓練巨型模型的具體花費金額,但不難發現,由于RLHF可以降低訓練更大型號模型的成本,實際上可能更具成本效益。

    Robin Chauhan:在我看來,他們通常使用基于on-policy的PPO(Proximal Policy Optimization)方法來處理數據集。這種方法無法重復使用數據,因為它們依賴于當前模型樣本數據或非常接近模型的數據。如果對這些數據進行訓練后,模型出現偏差,那么該數據集是否仍然有效?或者說該數據集是否可以用于訓練其他模型?

    Natasha Jaques:這些數據集并非是一次性的。獎勵模型的訓練過程實際類似于對文本摘要進行比較。這種比較的結果不僅僅取決于策略模型本身,更是一種較為客觀普遍的結果,所以具有off-policy特性,可以重復的使用這些數據。

    2

    獎勵模型的局限性

    Robin Chauhan:John Schulman指出,雖然人類反饋在訓練過程中具有一定有效性,但如果使用相同的獎勵模型進行長時間訓練,性能可能在某個時刻下降。因此我認為,在每個階段后需要繼續收集額外的人類反饋,而為了進一步提高性能,則可能需要使用全新的數據集。你怎么看?

    Natasha Jaques:我不太熟悉OpenAI的工作,不過在我的工作中發現了這一現象:我們嘗試通過優化獎勵來實現目標,同時也考慮到了數據的可行范圍,但很容易被獎勵函數所束縛,形成過度依賴。

    例如,在訓練對話模型時,我們使用了獎勵函數,鼓勵模型與人類進行對話,同時輸出高情感度的文本來獲取積極的反饋。但是由于數據資源有限,我們很可能會過度擬合數據和獎勵,從而導致模型在新數據上表現不佳。

    我們的目標是,在保持模型適應數據分布(data distribution)的同時最大化獎勵。我們使用了最大熵強化學習(maximum entropy RL)算法來找到最優策略,行為是否受到限制并不重要,而是會重復使用獎勵函數。因此,在使用獎勵方式來訓練智能體時,它可能會表現得過于積極、禮貌和愉悅。

    智能體的行為多樣性建立在輸出文本的多樣性基礎之上。我想知道他們的結果是否存在類似的問題,即過度訓練獎勵模型實際上會導致收益遞減,甚至最終變成負面收益(negative return)。此外,獎勵模型本身似乎并不完美,通過驗證數據(validation data),你會發現其準確率大約在七成左右。因此在訓練時,很可能會發生過度擬合。尚不清楚獎勵模型是否足夠全面,以描述優質的輸出。

    Robin Chauhan:現有的模型并不擅長忽略干擾項,但這主要是函數逼近問題,而非強化學習的問題。我們似乎還沒有找到解決干擾項問題的方法。

    Natasha Jaques:可能需要更多基于符號的表示法來實現泛化,以便像卡車和草堆這樣的物體能夠被地理解。我們不能僅僅依賴歸納式的深度學習,例如只依賴訓練數據集中的卡車示例來識別卡車,因為這種方法在面對超出訓練數據范圍的卡車時將失效。

    將語言模型集成到強化學習智能體中很有發展潛力,因為語言是組合性的,或許可以提供組合表示法(compositional representation),從而有助于更好地進行泛化。用語言提示生成逼真圖像就證明了組合表示法的潛在優勢。

    3

    基于token級別的強化學習

    Robin Chauhan:你之前在該領域做過類似的工作,在token級別上進行強化學習,將每個token視為一個獨立的動作(action),并使用“Sequence Tutor”和“Side Learning”等方法。

    Natasha Jaques:沒錯。如果你深入挖掘一下就會發現InstructGPT也是如此。使用策略梯度(policy gradient)的方法更容易,通過計算每個token的概率并對其進行求和,就可以獲得整個序列的概率。然而,無論使用哪種方法,最終都是通過增加或減少token級別(token level)的概率來傳遞模型中的損失。

    Robin Chauhan:你的論文中將它描述為一種“bandit算法”。在我看來,這可能會給人一種錯覺,認為所有的tokens是一個整體動作(one action)。但你的看法是,其組織方式仍允許我們單獨分析每個token的概率。

    Natasha Jaques:你可以使用以下公式計算整個序列的獎勵:每個單詞的獎勵相加,再乘以整個輸出的概率。然而,在實際操作中,得到整個序列概率的方法是將token級別的概率相加。因此,影響模型的方法實際上是通過修改token級別的概率來實現的。

    Robin Chauhan:那這是否意味著在token級別上進行分析沒有任何好處?因為我記得John說過,將數據集作為一個整體進行分析更易于處理。

    Natasha Jaques:他們采用了一種不同于token級別強化學習的方法。他們將貼現因子(discount factor)設為1,并沒有對序列中的所有token應用的相同獎勵進行貼現處理,也就是說,序列末尾收到的獎勵與序列開頭收到的獎勵具有相同的價值。這種方法效果還不錯。

    如果我沒記錯的話,我們進行過這樣的實驗:嘗試在序列級別和整個對話級別上進行獎勵設計,比如說獎勵對話的持續時間,這涉及到多個對話回合。

    此外,我們還對句子中的token進行均勻分布,實施了在句子級別的獎勵設計。然而,在涉及對話長度的問題上,我們仍然采用了貼現因子(discount factor)。這是因為無法確定對話會持續多久,因此需要對這些獎勵進行貼現處理。不過對話的時間夠長,獎勵就會相應提高。雖然如此,優化對話中的貼現獎勵(discounted reward)還是相當困難。

    4

    AGI與AI具身化

    Robin Chauhan:你認為當前討論和思考通用人工智能(AGI)是否有必要,還是說這只是一個遙遠的夢想,不值一提?

    Natasha Jaques:當談論通用人工智能(AGI)時,我感到有些沮喪,因為人們通常并不清楚自己正在談論什么。

    AGI的定義并不清晰,試圖澄清其含義又會導致循環論證。比如,有人可能會告訴我AGI將在五年內問世,但如果我問他們為何自動駕駛汽車公司的CEO認為推出全自動駕駛汽車需要20年時,就會出現自相矛盾的情況。

    在我看來,AGI可以完成人類所能完成的一切,甚至比人類更出色,但如果它不能駕駛汽車,那就不能被視作AGI。盡管有些人認為AGI不需要具備任何具體的物理形態,但這意義何在呢?

    撇開這些爭論不談,我確實對人工智能發展的速度感到非常驚訝,甚至有些擔憂。如果我們將AGI定義為具有高度顛覆性和快速發展的人工智能技術,我們已經達到了這個階段。以ChatGPT為例,現在大學不得不重新設計他們的寫作課程,因為現在ChatGPT寫出來的文章比部分本科生寫得還要好。

    Robin Chauhan:確實,AGI并不能替代所有工作,但像ChatGPT這樣無疑具有巨大的發展前景,這也是我所見過的第一個真正實現通用性的技術。此外,你提到的自動駕駛汽車也是一個很好的例子。盡管許多人過去預測完全自動駕駛汽車將在兩到三年內推出,但實際推出時間卻一再被推遲。

    Natasha Jaques:在短時間內推出全自動駕駛汽車確實很困難,從Andrej Karpathy提到的特斯拉事故就可看出。因為特斯拉自動駕駛系統不能感知一輛半掛車上裝載另一個半掛車的情況,所以事故就發生了。簡而言之,一輛車上裝載了一輛半掛車,而后面這輛半掛車上又裝載著另一輛半掛車,最終就造成了“堆砌”。

    這些事故發生的原因是,特斯拉自動駕駛系統無法感知訓練數據之外的情況。我們知道,如果模型超出了訓練數據的支持范圍,它們的性能通常會下降。那么如何才能創建一個數據集,能夠包含現實世界中可能發生的所有情況呢?實際上這是不可能的,因為世界一直在變化,新的事物也在不斷涌現。

    我一直在研究如何通過對抗環境設計或者無監督環境設計的方法來訓練強化學習智能體。在這些方法中,我們可以找到可能導致模型失敗的問題,并針對性地進行訓練。相比僅僅依靠有限數據集的監督學習方法,這些新的方法更具可行性。

    Robin Chauhan:你提及的AI具身化(embodiment)仍然存在許多問題。但ChatGPT所展示的是,如果我們能夠在抽象的文本世界中自由地創作和表達,問題就能迎刃而解了。

    Natasha Jaques:對我來說,最吸引我的是具身化智能體,它可以在理解語言的同時做具身化,就拿AGI來說,如果我們要對它下定義,不僅要能理解文本,同時還要理解文本對世界的映射方式,只有這樣我們才能對事情進行完整概括。有一個能在相同網絡中編碼所有東西的智能體是一件很不錯的事。

    Robin Chauhan:利用現有技術,我們的能力得到了極大提升,可以完成許多以前無法完成的事情。曾經我們主要關注的是文本、抽象思維、代碼以及抽象符號等,但現實表明,機器人和動物智能(animal intelligence)才是真正難做的東西,相比之下,人類獨有的抽象思維反而更容易實現。我們現在已經達成了之前認為遙不可及的目標,ChatGPT讓我們看到了機器人身上缺乏的通用性。

    Natasha Jaques:我記得有這樣一種說法,對人類來說很難的活動(例如國際象棋和圍棋),AI卻能夠輕松應對。對于AI來說,一些低水平的操縱活動(比如用手從地上撿起東西)才是真正挑戰。

    我想分享一件趣事,這件事可以較好地說明為什么具身化如此困難。我一直在研究語言條件強化學習智能體(language conditioned RL agents),旨在通過自然語言的指導,讓機器完成實際事務。

    當時我讀了一篇DeepMind的論文,論文主要內容是模仿交互式智能,創造出一種模擬世界,在這個世界里,機器人可以隨意走動,這個世界就像是低分辨率的視頻游戲一樣,機器人得到指令以后,可以做一些事情,比如拿起橘子把它放在床上,或者拿起杯子把它放在桌子上等等。

    這個30人的研究團隊在這個項目上花了兩年時間,投入了數百萬美元。他們收集了大量人類數據,并嘗試在模擬環境中應用這些數據。由于收集的數據量過于龐大,所以其中可能有半數都是重復數據。而他們則基于這些數據去訓練機器人。最后你猜他們成功執行指令的機率是50%。

    我認為這個比例比較低。盡管“將橘子放到床上”等指令看似簡單,但考慮到項目團隊已經投入了大量資金,他們應該能夠取得更高的成功率。這也表明了具身化任務的挑戰性,即使我們已經成功實現了文本到圖像的有效結合,文本到圖像的組合生成模型也實現了良好運轉,但是物理實體的操作卻難以控制,讓它們在接收視覺和文本信息的基礎上完成簡單任務的難度也非常大。

    5

    回歸學界:研究社交強化學習

    Robin Chauhan:我聽說你打算回到學術界,擔任華盛頓大學的助理教授。你打算研究什么?

    Natasha Jaques:我已經有一個清晰的想法。在企業招聘時,如果你不能清晰地描述你的計劃,他們就不會雇用你。我想做的是社交強化學習,即:當在多智能體環境中進行學習時,我們可以在哪些方面提升AI的性能。目前大多數AI活動都需要人類參與,而人類非常聰明,有多種方式來完成任務。

    因此,我們不僅要思考如何使AI靈活地向人類學習,還要思考人類在社交學習方面的技能,即如何確認哪些模型值得學習,以及何時應該依賴向他人學習而不是獨立探索。我想開發的是能夠與人類交互并且有用的AI。

    這就要解決以下問題,例如:如何與一個從未見過的人合作解決任務?如何理解人類想要解決的目標?如何從人類反饋(包括隱式反饋)中進行學習?如何使用自然語言與人類交流以解決任務?如何使用人類反饋訓練語言?這些都是我一直在研究的語言條件下的強化學習。

    Robin Chauhan:在業內領先實驗室工作后再回到學術界是一個很有趣的選擇,我敢打賭,很多人會做出相反的選擇,特別是考慮到在學術預算有限的情況下,做頂尖AI研究是一個很大的挑戰,因為規模化對于AI來說十分重要,但規模化擴展又十分昂貴。

    Natasha Jaques:有人可能會認為,如果想要為AI做出貢獻,就需要巨大的計算預算和訓練大型模型,而學術界怎么可能承擔得起這個成本?但實際上,業界常有30-50人組成的團隊在致力于研究那些已經被證實可行的想法,所以研究人員可以加入其中,將其擴展成大規模項目。比如谷歌的一些大型團隊就正在嘗試開展RLHF項目。他們的做法與OpenAI都大同小異,都在嘗試擴展編寫自己的基礎設施。

    OpenAI和DeepMind現在越來越注重規模化擴展,而非僅僅發布研究成果。如果你想要從事創新性的、探索新想法的研究方向,并通過實驗確認這些想法,那么在業界可能會有更多的挑戰。

    我比較關注的是研究自由度和能夠獨立思考并實驗的能力。學術界的作用在于提出新的研究思路,并進行概念驗證,而工業界則負責將這些思路轉化為實用的系統。

    以我從事KL控制為例,學術界的探索性工作就對工業界的技術發展起到了積極的推動作用。所以起決定作用的是看個人喜歡做什么,加入基礎設施工作團隊還是做更多研究。就我個人而言,我更喜歡從事更具有研究性質的工作。

    Robin Chauhan:你對AI的貢獻已經得到學術界的認可,但公眾卻鮮為人知。人們只看到OpenAI取得的成就,卻不知道它也是站在前人的肩膀上才獲得的。

    Natasha Jaques:現狀確實如此。不過我的目標是實踐自己的想法并驗證是否可行,進而為AI的發展作出貢獻,而不只是追求榮譽。

    相關論文

    1. Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog(https://arxiv.org/abs/1907.00456

    2. Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control(https://arxiv.org/abs/1611.02796)

    3. PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning(https://arxiv.org/abs/2102.12

    4. Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience(https://arxiv.org/abs/2208.04919

    5. Fine-Tuning Language Models from Human Preferences(https://arxiv.org/abs/1909.08593), Daniel M. Ziegler et al 2019

    6. Learning to summarize from human feedback(https://arxiv.org/abs/2009.01325), Nisan Stiennon et al 2020??

    7. Training language models to follow instructions with human feedback(https://arxiv.org/abs/2203.02155), Long Ouyang et al 2022??

    其他人都在看

    “ChatGPT們”的淘金時代

    大型語言模型的推理演算

    GPT-4創造者:第二次改變AI浪潮的方向

    ChatGPT作者Schulman:我們成功的秘密武器

    比快更快,開源Stable Diffusion刷新作圖速度

    OneEmbedding:單卡訓練TB級推薦模型不是夢

    GLM訓練加速:性能最高提升3倍,顯存節省1/3

    歡迎Star、試用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

    關鍵詞:
    責任編輯: 梅長蘇