中國(guó)電競(jìng)網(wǎng)

中國(guó)電競(jìng)網(wǎng)

AI基準(zhǔn)測(cè)試平臺(tái)LMArena陷爭(zhēng)議:研究指責(zé)其偏袒OpenAI、谷歌和Meta

可可 676 網(wǎng)絡(luò)采編

人工智能領(lǐng)域知名的公共基準(zhǔn)測(cè)試平臺(tái)LMArena近日遭遇信任危機(jī)。一項(xiàng)新的研究指出,該平臺(tái)的排名系統(tǒng)存在偏袒OpenAI谷歌Meta等大型供應(yīng)商的結(jié)構(gòu)性問(wèn)題,其不透明的流程和頭部企業(yè)的固有優(yōu)勢(shì)可能導(dǎo)致排名失真。然而,LMArena運(yùn)營(yíng)團(tuán)隊(duì)已公開(kāi)否認(rèn)這些指控。

LMArena通過(guò)向用戶(hù)展示不同大型語(yǔ)言模型(LLM)的回復(fù)對(duì)比,并由用戶(hù)投票選出更優(yōu)者,最終形成廣泛被行業(yè)引用的模型性能排行榜。企業(yè)常借此展示自身模型的優(yōu)越性。

但由Cohere Labs、普林斯頓大學(xué)和麻省理工學(xué)院的研究人員聯(lián)合進(jìn)行的一項(xiàng)分析,基于2024年1月至2025年4月期間收集的超過(guò)280萬(wàn)條模型比較記錄,揭示了LMArena排名可能存在的偏差。研究人員認(rèn)為,Meta、谷歌和OpenAI等公司能夠私下測(cè)試其模型的多個(gè)版本,并僅選擇性能最佳的版本公開(kāi)展示在排行榜上,其余版本則被移除。這種被稱(chēng)為“分?jǐn)?shù)游戲”的做法,使得最終發(fā)布的模型往往是經(jīng)過(guò)精心挑選的“尖子生”。例如,Meta在發(fā)布Llama4之前至少測(cè)試了27個(gè)內(nèi)部版本。Meta隨后也承認(rèn),在用戶(hù)批評(píng)后,他們部署了專(zhuān)門(mén)針對(duì)基準(zhǔn)測(cè)試優(yōu)化的Llama4聊天機(jī)器人,而其未經(jīng)優(yōu)化的“Maverick”模型在LMArena上的表現(xiàn)則遜色不少。受控實(shí)驗(yàn)也表明,提交多個(gè)幾乎相同的模型變體可以顯著提高得分。

此外,研究還指出用戶(hù)數(shù)據(jù)的不平等分配進(jìn)一步加劇了這種偏差。通過(guò)API接口,大型供應(yīng)商能夠收集用戶(hù)與模型交互的數(shù)據(jù),包括提示和偏好設(shè)置,但這些數(shù)據(jù)并未公平地共享。OpenAI和谷歌的模型獲得了絕大多數(shù)的用戶(hù)交互數(shù)據(jù)(占比高達(dá)61.4%),這使得它們能夠利用更多的數(shù)據(jù)進(jìn)行優(yōu)化,甚至可能針對(duì)LMArena平臺(tái)進(jìn)行專(zhuān)門(mén)優(yōu)化,從而提升排名,即使其在外部基準(zhǔn)上的表現(xiàn)并非最優(yōu)。

研究人員還發(fā)現(xiàn),大量模型在未公開(kāi)通知的情況下從LMArena平臺(tái)移除,這對(duì)開(kāi)源模型的影響尤為顯著。在評(píng)估的243個(gè)模型中,有205個(gè)模型未經(jīng)解釋就被停用,只有47個(gè)模型被正式標(biāo)記為棄用。這種缺乏透明度的模型移除機(jī)制,可能會(huì)扭曲排名的歷史連貫性和參考價(jià)值。

針對(duì)上述研究結(jié)果,LMArena團(tuán)隊(duì)在X平臺(tái)發(fā)布聲明堅(jiān)決否認(rèn),強(qiáng)調(diào)其排名“反映了數(shù)百萬(wàn)新鮮、真實(shí)的人類(lèi)偏好”,并認(rèn)為提交前的測(cè)試是合法手段,旨在確定最符合用戶(hù)期望的模型變體。他們認(rèn)為,利用測(cè)試數(shù)據(jù)優(yōu)化模型以滿(mǎn)足用戶(hù)偏好是一件好事。LMArena團(tuán)隊(duì)還表示,排名的依據(jù)僅為最終公開(kāi)發(fā)布的模型,而非內(nèi)部測(cè)試結(jié)果,且平臺(tái)的源代碼和數(shù)百萬(wàn)用戶(hù)交互數(shù)據(jù)均已公開(kāi),其設(shè)計(jì)理念是開(kāi)放的。

盡管如此,研究人員仍呼吁LMArena進(jìn)行改革,包括公開(kāi)所有測(cè)試過(guò)的模型變體、限制供應(yīng)商單次提交的版本數(shù)量、確保模型在用戶(hù)之間更公平地分配,并對(duì)模型移除進(jìn)行清晰記錄。他們警告稱(chēng),若缺乏更嚴(yán)格的監(jiān)督,LMArena最終可能獎(jiǎng)勵(lì)的是針對(duì)排行榜的策略性?xún)?yōu)化,而非模型實(shí)際性能的提升。

Cohere 實(shí)驗(yàn)室負(fù)責(zé)人兼該研究合著者之一Sara Hooker強(qiáng)調(diào)了LMArena日益增長(zhǎng)的影響力及其所要求的“科學(xué)誠(chéng)信”。前特斯拉和OpenAI工程師Andrej Karpathy也對(duì)LMArena的可靠性表示懷疑,他注意到Gemini模型在榜單上“遠(yuǎn)高于第二名”,這與他個(gè)人使用體驗(yàn)不符,并指出一些規(guī)模較小、缺乏實(shí)際知識(shí)的“相對(duì)隨機(jī)的模型”也常常出現(xiàn)在榜單前列,進(jìn)一步引發(fā)了對(duì)排名真實(shí)性的質(zhì)疑。


標(biāo)簽: