中國電競網(wǎng)

中國電競網(wǎng)

AI基準(zhǔn)測試平臺LMArena陷爭議:研究指責(zé)其偏袒OpenAI、谷歌和Meta

可可 656 網(wǎng)絡(luò)采編

人工智能領(lǐng)域知名的公共基準(zhǔn)測試平臺LMArena近日遭遇信任危機(jī)。一項(xiàng)新的研究指出,該平臺的排名系統(tǒng)存在偏袒OpenAI谷歌Meta等大型供應(yīng)商的結(jié)構(gòu)性問題,其不透明的流程和頭部企業(yè)的固有優(yōu)勢可能導(dǎo)致排名失真。然而,LMArena運(yùn)營團(tuán)隊(duì)已公開否認(rèn)這些指控。

LMArena通過向用戶展示不同大型語言模型(LLM)的回復(fù)對比,并由用戶投票選出更優(yōu)者,最終形成廣泛被行業(yè)引用的模型性能排行榜。企業(yè)常借此展示自身模型的優(yōu)越性。

但由Cohere Labs、普林斯頓大學(xué)和麻省理工學(xué)院的研究人員聯(lián)合進(jìn)行的一項(xiàng)分析,基于2024年1月至2025年4月期間收集的超過280萬條模型比較記錄,揭示了LMArena排名可能存在的偏差。研究人員認(rèn)為,Meta、谷歌和OpenAI等公司能夠私下測試其模型的多個版本,并僅選擇性能最佳的版本公開展示在排行榜上,其余版本則被移除。這種被稱為“分?jǐn)?shù)游戲”的做法,使得最終發(fā)布的模型往往是經(jīng)過精心挑選的“尖子生”。例如,Meta在發(fā)布Llama4之前至少測試了27個內(nèi)部版本。Meta隨后也承認(rèn),在用戶批評后,他們部署了專門針對基準(zhǔn)測試優(yōu)化的Llama4聊天機(jī)器人,而其未經(jīng)優(yōu)化的“Maverick”模型在LMArena上的表現(xiàn)則遜色不少。受控實(shí)驗(yàn)也表明,提交多個幾乎相同的模型變體可以顯著提高得分。

此外,研究還指出用戶數(shù)據(jù)的不平等分配進(jìn)一步加劇了這種偏差。通過API接口,大型供應(yīng)商能夠收集用戶與模型交互的數(shù)據(jù),包括提示和偏好設(shè)置,但這些數(shù)據(jù)并未公平地共享。OpenAI和谷歌的模型獲得了絕大多數(shù)的用戶交互數(shù)據(jù)(占比高達(dá)61.4%),這使得它們能夠利用更多的數(shù)據(jù)進(jìn)行優(yōu)化,甚至可能針對LMArena平臺進(jìn)行專門優(yōu)化,從而提升排名,即使其在外部基準(zhǔn)上的表現(xiàn)并非最優(yōu)。

研究人員還發(fā)現(xiàn),大量模型在未公開通知的情況下從LMArena平臺移除,這對開源模型的影響尤為顯著。在評估的243個模型中,有205個模型未經(jīng)解釋就被停用,只有47個模型被正式標(biāo)記為棄用。這種缺乏透明度的模型移除機(jī)制,可能會扭曲排名的歷史連貫性和參考價值。

針對上述研究結(jié)果,LMArena團(tuán)隊(duì)在X平臺發(fā)布聲明堅(jiān)決否認(rèn),強(qiáng)調(diào)其排名“反映了數(shù)百萬新鮮、真實(shí)的人類偏好”,并認(rèn)為提交前的測試是合法手段,旨在確定最符合用戶期望的模型變體。他們認(rèn)為,利用測試數(shù)據(jù)優(yōu)化模型以滿足用戶偏好是一件好事。LMArena團(tuán)隊(duì)還表示,排名的依據(jù)僅為最終公開發(fā)布的模型,而非內(nèi)部測試結(jié)果,且平臺的源代碼和數(shù)百萬用戶交互數(shù)據(jù)均已公開,其設(shè)計(jì)理念是開放的。

盡管如此,研究人員仍呼吁LMArena進(jìn)行改革,包括公開所有測試過的模型變體、限制供應(yīng)商單次提交的版本數(shù)量、確保模型在用戶之間更公平地分配,并對模型移除進(jìn)行清晰記錄。他們警告稱,若缺乏更嚴(yán)格的監(jiān)督,LMArena最終可能獎勵的是針對排行榜的策略性優(yōu)化,而非模型實(shí)際性能的提升。

Cohere 實(shí)驗(yàn)室負(fù)責(zé)人兼該研究合著者之一Sara Hooker強(qiáng)調(diào)了LMArena日益增長的影響力及其所要求的“科學(xué)誠信”。前特斯拉和OpenAI工程師Andrej Karpathy也對LMArena的可靠性表示懷疑,他注意到Gemini模型在榜單上“遠(yuǎn)高于第二名”,這與他個人使用體驗(yàn)不符,并指出一些規(guī)模較小、缺乏實(shí)際知識的“相對隨機(jī)的模型”也常常出現(xiàn)在榜單前列,進(jìn)一步引發(fā)了對排名真實(shí)性的質(zhì)疑。


標(biāo)簽: