AI基準測試平臺LMArena陷爭議：研究指責其偏袒OpenAI、谷歌和Meta

2025-05-06 可可 676 網(wǎng)絡采編

人工智能領域知名的公共基準測試平臺LMArena近日遭遇信任危機。一項新的研究指出，該平臺的排名系統(tǒng)存在偏袒Open AI、谷歌和Meta等大型供應商的結構性問題，其不透明的流程和頭部企業(yè)的固有優(yōu)勢可能導致排名失真。然而，LMArena運營團隊已公開否認這些指控。

LMArena通過向用戶展示不同大型語言模型（LLM）的回復對比，并由用戶投票選出更優(yōu)者，最終形成廣泛被行業(yè)引用的模型性能排行榜。企業(yè)常借此展示自身模型的優(yōu)越性。

但由Cohere Labs、普林斯頓大學和麻省理工學院的研究人員聯(lián)合進行的一項分析，基于2024年1月至2025年4月期間收集的超過280萬條模型比較記錄，揭示了LMArena排名可能存在的偏差。研究人員認為，Meta、谷歌和OpenAI等公司能夠私下測試其模型的多個版本，并僅選擇性能最佳的版本公開展示在排行榜上，其余版本則被移除。這種被稱為“分數(shù)游戲”的做法，使得最終發(fā)布的模型往往是經過精心挑選的“尖子生”。例如，Meta在發(fā)布Llama4之前至少測試了27個內部版本。Meta隨后也承認，在用戶批評后，他們部署了專門針對基準測試優(yōu)化的Llama4聊天機器人，而其未經優(yōu)化的“Maverick”模型在LMArena上的表現(xiàn)則遜色不少。受控實驗也表明，提交多個幾乎相同的模型變體可以顯著提高得分。

此外，研究還指出用戶數(shù)據(jù)的不平等分配進一步加劇了這種偏差。通過API接口，大型供應商能夠收集用戶與模型交互的數(shù)據(jù)，包括提示和偏好設置，但這些數(shù)據(jù)并未公平地共享。OpenAI和谷歌的模型獲得了絕大多數(shù)的用戶交互數(shù)據(jù)（占比高達61.4%），這使得它們能夠利用更多的數(shù)據(jù)進行優(yōu)化，甚至可能針對LMArena平臺進行專門優(yōu)化，從而提升排名，即使其在外部基準上的表現(xiàn)并非最優(yōu)。

研究人員還發(fā)現(xiàn)，大量模型在未公開通知的情況下從LMArena平臺移除，這對開源模型的影響尤為顯著。在評估的243個模型中，有205個模型未經解釋就被停用，只有47個模型被正式標記為棄用。這種缺乏透明度的模型移除機制，可能會扭曲排名的歷史連貫性和參考價值。

針對上述研究結果，LMArena團隊在X平臺發(fā)布聲明堅決否認，強調其排名“反映了數(shù)百萬新鮮、真實的人類偏好”，并認為提交前的測試是合法手段，旨在確定最符合用戶期望的模型變體。他們認為，利用測試數(shù)據(jù)優(yōu)化模型以滿足用戶偏好是一件好事。LMArena團隊還表示，排名的依據(jù)僅為最終公開發(fā)布的模型，而非內部測試結果，且平臺的源代碼和數(shù)百萬用戶交互數(shù)據(jù)均已公開，其設計理念是開放的。

盡管如此，研究人員仍呼吁LMArena進行改革，包括公開所有測試過的模型變體、限制供應商單次提交的版本數(shù)量、確保模型在用戶之間更公平地分配，并對模型移除進行清晰記錄。他們警告稱，若缺乏更嚴格的監(jiān)督，LMArena最終可能獎勵的是針對排行榜的策略性優(yōu)化，而非模型實際性能的提升。

Cohere 實驗室負責人兼該研究合著者之一Sara Hooker強調了LMArena日益增長的影響力及其所要求的“科學誠信”。前特斯拉和OpenAI工程師Andrej Karpathy也對LMArena的可靠性表示懷疑，他注意到Gemini模型在榜單上“遠高于第二名”，這與他個人使用體驗不符，并指出一些規(guī)模較小、缺乏實際知識的“相對隨機的模型”也常常出現(xiàn)在榜單前列，進一步引發(fā)了對排名真實性的質疑。

標簽：

本文地址： http://www.sdoldhj.cn/ai/20250506/109.html