現(xiàn)在的大模型(LLMs)已經(jīng)非常智能。寫文章、編代碼、當(dāng)醫(yī)生、當(dāng)老師,樣樣精通。于是乎,有人就想了:既然它們這么聰明,能不能讓它們自己做決定,當(dāng)個(gè)“智能體”呢?比如,在復(fù)雜的環(huán)境里自己探索、自己解決問題。
畢竟,大家覺得LLMs肚子里有“世界知識(shí)”,不需要手把手教也能猜到怎么干。而且,它們還有“思維鏈”(Chain-of-Thought,CoT)這種“聰明腦回路”,能一步一步推理,更好地理解環(huán)境和自己的行為。聽起來是不是很完美?
結(jié)果呢?啪!打臉了。研究人員發(fā)現(xiàn),這些LLM智能體在需要做決策的時(shí)候,表現(xiàn)那叫一個(gè)“次”。它們不夠“好奇”,探索得不好,老是選不到最佳策略。更尷尬的是,它們居然存在一個(gè)“知行合一”的大問題。
AI的“知行不一”:我知道該減肥,但我就是做不到!
論文里把這個(gè)“知行不一”的問題,叫做**“Knowing-Doing Gap”(知-行差距)**。形象地說,就是LLMs“知道”怎么做是對(duì)的,甚至能把正確的“思路”(CoT)給你寫得明明白白,告訴你這么做會(huì)有啥后果。但到了真正“做”的時(shí)候,它們卻偏偏不按“知道”的來,選擇了別的行動(dòng)。
這簡直就像我們自己:明知道熬夜不好,還是刷手機(jī)刷到凌晨;明知道健康飲食要多吃蔬菜,手卻伸向了炸雞。AI,你是不是在我家裝了攝像頭?!
論文里的數(shù)據(jù)顯示,在某些任務(wù)中,LLM智能體生成正確“思考過程”(Rationale)的比例高達(dá)87%。也就是說,它們腦子里門兒清!但即使“知道”正確答案,它們實(shí)際執(zhí)行的行動(dòng)里,只有21%是真正“最優(yōu)”的,而高達(dá)58%是“貪婪”行動(dòng)。這“知道”和“做”之間的巨大鴻溝,簡直讓人哭笑不得。
AI的另外兩個(gè)“小毛病”:貪婪和跟風(fēng)!
除了“知行不一”,論文還系統(tǒng)研究了LLMs在決策時(shí)的另外兩個(gè)普遍“失敗模式”:
1.Greediness(貪婪): 這個(gè)最好理解了。LLM智能體就像個(gè)嘗鮮者,試了幾個(gè)選項(xiàng)后,如果發(fā)現(xiàn)其中一個(gè)給了點(diǎn)甜頭(高回報(bào)),它就會(huì)超級(jí)偏愛這個(gè)選項(xiàng)。即使還有好多沒試過的選項(xiàng),即使那個(gè)“甜頭”可能不是真正的最佳選擇,它也傾向于反復(fù)選擇已經(jīng)“見過”并且感覺不錯(cuò)的那個(gè)。這導(dǎo)致它們不愿意去探索未知,行動(dòng)空間覆蓋率非常低。想象一下,一家餐廳只吃最開始那道菜,可能錯(cuò)過了招牌硬菜啊! 即使是更大的模型或者用了CoT,“貪婪”這個(gè)問題依然明顯。這是因?yàn)樗鼈儗?duì)看到有回報(bào)的行動(dòng),會(huì)賦予過高的執(zhí)行概率。
2.Frequency Bias(頻率偏差): 這個(gè)更奇葩。小一點(diǎn)的LLMs(比如2B規(guī)模的)特別容易“跟風(fēng)”。如果輸入的歷史信息里,某個(gè)行動(dòng)被重復(fù)了很多次(哪怕它給的回報(bào)很低),模型就傾向于跟著選擇這個(gè)行動(dòng)。這就像鸚鵡學(xué)舌,或者被洗腦了一樣,看到重復(fù)得多的就覺得是對(duì)的。論文發(fā)現(xiàn),2B模型在這個(gè)問題上栽得很慘,越重復(fù)某個(gè)行動(dòng),它就越確信那是對(duì)的。而大一些的模型(比如27B)就好多了,基本克服了“跟風(fēng)”,但還是逃不過“貪婪”的手掌心。研究人員猜測(cè),這個(gè)“跟風(fēng)”可能是在海量數(shù)據(jù)上進(jìn)行“有監(jiān)督預(yù)訓(xùn)練”留下的“后遺癥”——畢竟,預(yù)訓(xùn)練時(shí)就是學(xué)著重復(fù)數(shù)據(jù)里的模式嘛。
給AI大佬們“治病”:強(qiáng)化學(xué)習(xí)微調(diào) (RLFT) 大法!
面對(duì)這些“疑難雜癥”,論文作者們提出了一種“治療方案”:Reinforcement Learning Fine-Tuning (RLFT)。簡單來說,就是把強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練方法,用在LLMs身上,而且是基于LLMs自己生成的“思考過程”(CoT)來進(jìn)行。
它的基本邏輯是:讓AI在環(huán)境里自己生成思考過程和行動(dòng)。如果這個(gè)行動(dòng)帶來了好的回報(bào),就“獎(jiǎng)勵(lì)”它產(chǎn)生這樣的思考和行動(dòng);如果回報(bào)不好,就“懲罰”它。通過這種方式,“訓(xùn)練”LLM去學(xué)習(xí)那些能帶來高回報(bào)的思考模式和行動(dòng)策略。這就像給LLM請(qǐng)了個(gè)私人教練,讓它在實(shí)踐中學(xué)習(xí),從自己的思考和結(jié)果中吸取經(jīng)驗(yàn)。
“治療”效果如何?顯著提升,但仍需努力!
實(shí)驗(yàn)證明,RLFT這劑猛藥確實(shí)管用。
降低了“貪婪”:經(jīng)過RLFT的2B模型,行動(dòng)的探索覆蓋率提高了12%。雖然還沒達(dá)到最優(yōu),但至少愿意多看看外面的世界了,不再那么死守著少數(shù)幾個(gè)看過的選項(xiàng)。
對(duì)抗了“跟風(fēng)”:RLFT有效地對(duì)抗了頻率偏差,模型沒那么容易被重復(fù)的歷史帶跑偏了。盡管在高重復(fù)頻率下,“跟風(fēng)”的殘余影響還在。
彌合了“知行差距”:RLFT通過獎(jiǎng)勵(lì)那些能帶來高回報(bào)的“思考+行動(dòng)”組合,讓LLM更好地把“知道”的轉(zhuǎn)化為“做到”。
實(shí)戰(zhàn)能力提升:在多臂老虎機(jī) (MABs) 和上下文老虎機(jī) (CBs) 任務(wù)中,RLFT顯著降低了累積遺憾(也就是少做了很多錯(cuò)誤決策)。在有狀態(tài)的環(huán)境,比如文字版井字棋 (Tic-tac-toe) 中,RLFT也大幅提高了LLM的勝率,甚至能和頂級(jí)的MCTS對(duì)手打平。這說明它在更復(fù)雜的決策場景下也有潛力。
光“治療”還不夠,得加點(diǎn)“輔助訓(xùn)練”!
雖然RLFT很有效,但論文也指出,經(jīng)過RLFT的模型在探索方面依然不是最優(yōu)的。就像運(yùn)動(dòng)員,基礎(chǔ)訓(xùn)練好后,還得有專項(xiàng)訓(xùn)練。于是,研究人員嘗試了一些額外的“探索機(jī)制”,比如:
“上來就全試一遍”:就像UCB算法那樣,一開始先把所有可能的行動(dòng)都試一次。結(jié)果發(fā)現(xiàn),這招超級(jí)管用!特別是對(duì)27B這種大模型,用了這招后幾乎能達(dá)到最優(yōu)的表現(xiàn)。這再次證明,AI不是不會(huì)做決定,而是需要先給它足夠的信息去了解每個(gè)選項(xiàng)的大致情況。
ε-greedy(小概率隨機(jī)探索):經(jīng)典RL招數(shù),偶爾隨機(jī)選個(gè)行動(dòng)。效果嘛,一般般。
探索獎(jiǎng)勵(lì)(Exploration Bonus):給那些還沒嘗試過的行動(dòng)額外加分。這招也很靈!能顯著提高探索率,并降低遺憾。這強(qiáng)調(diào)了“獎(jiǎng)勵(lì)設(shè)計(jì)”的重要性,得告訴AI你希望它做什么樣的行為(比如多探索)。
還有一些針對(duì)LLMs的技巧,比如上下文隨機(jī)化、上下文總結(jié)、自我糾正、自我一致性等等。
“思考”的重要性:不僅要有,還要給夠時(shí)間!
論文還強(qiáng)調(diào),“思維鏈”(CoT)在這個(gè)過程中起著“至關(guān)重要”的作用。它不僅能幫助LLM在做決策前進(jìn)行合理的推導(dǎo),還是RLFT有效性的關(guān)鍵。沒有CoT,RLFT的效果會(huì)大打折扣。
更進(jìn)一步,給AI“思考”的時(shí)間(也就是生成思考過程的Token數(shù)量上限)也很重要。思考時(shí)間太短(比如只允許生成16或64個(gè)Token),AI就沒法好好組織思路,性能會(huì)很差。但如果把思考時(shí)間從256提到512個(gè)Token,性能就能顯著提升,甚至能追平更大模型的水平。這說明,AI能有效利用這些額外的“思考時(shí)間”來提升決策能力。不過,多思考也有代價(jià)——訓(xùn)練時(shí)會(huì)消耗更多計(jì)算資源和時(shí)間。
向“學(xué)霸”取經(jīng):模仿專家行為也很香!
最后,論文還對(duì)比了傳統(tǒng)的“模仿學(xué)習(xí)”方法。他們讓LLM學(xué)習(xí)模仿UCB專家的行為,包括只模仿行動(dòng)(Behavior Cloning,BC)和模仿行動(dòng)+思考過程(Thought Cloning,TC)。結(jié)果發(fā)現(xiàn),直接模仿專家數(shù)據(jù)訓(xùn)練出來的模型,在簡單任務(wù)上也能達(dá)到和專家差不多的水平。這說明,如果有高質(zhì)量的專家數(shù)據(jù),“抄作業(yè)”也是個(gè)提高AI決策能力的好方法。
AI大佬也有“成長的煩惱”
總而言之,這篇論文告訴我們:
1.雖然LLMs看起來無所不知,但在做決策時(shí),它們有自己的“人格缺陷”,比如貪婪、跟風(fēng)和知行不一。
2.強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)能有效“治療”這些問題,提高AI的探索能力和決策表現(xiàn)。
3.但RLFT后的探索能力依然不夠完美,需要額外的探索機(jī)制來輔助,比如“上來就全試一遍”或者給“探索獎(jiǎng)勵(lì)”。這證明,AI不是不會(huì)做決策,是需要引導(dǎo)和充分信息。
4.“思考過程”(CoT)對(duì)于RLFT至關(guān)重要,“思考時(shí)間”(生成預(yù)算)也需要給夠。
5.直接學(xué)習(xí)模仿專家也是一條有效的捷徑。
當(dāng)然,目前的研究主要集中在特定模型(Gemma2)和相對(duì)簡單或有限的場景下。未來還需要在更復(fù)雜、更貼近現(xiàn)實(shí)的環(huán)境中進(jìn)一步探索。
看來,AI要成為真正的“決策高手”,還有一段路要走。它們和我們?nèi)祟愐粯?,都有需要克服?ldquo;人性弱點(diǎn)”(雖然是機(jī)器的),也都需要學(xué)習(xí)和訓(xùn)練才能變得更優(yōu)秀。不過,看到AI在努力克服“知行不一”,是不是也給我們自己提了個(gè)醒呢?
好了,今天的AI八卦……哦不,AI研究解讀就到這里。希望這篇不正經(jīng)的科普,能讓你對(duì)AI的決策能力和強(qiáng)化學(xué)習(xí)微調(diào)有個(gè)初步的了解!下回見到AI,別忘了它們也可能正在經(jīng)歷“貪婪”和“知行不一”的掙扎哦!
標(biāo)簽: