人工智能行業已經變得善於自我衡量。標準不斷提高,模型得分不斷提高,每個新版本都會附帶一系列旨在表明進展的指標。 然而,在實驗室和現實生活之間的某個地方,有些東西正在不斷下滑。
實際上的模型 感覺 最好用?
人們會相信什麼答案?
您會在客戶、員工或公民面前放置哪種系統,讓您在背後感到安心?
LMArena 正是在這個缺口上悄然建立了自己的業務,也是投資者將其佈局的原因 背後 1.5 億美元,估值 17 億美元,在 A 輪融資中。他們是主要投資者 Phylicis 和加州大學投資主要項目公司(Andreessen Horowitz、Kleiner Perkins、Lightspeed、The House Fund、Load Ventures)的參與。
沒有其他標準
多年來,標準一直是人工智能可信度的貨幣:準確性分數、推理測試和標準化數據集。他們一直工作到沒有為止。隨著模型變得越來越大、越來越相似,標準的改進變得微不足道。更糟糕的是,這些模型開始改進測試本身,而不是實際用例。靜態評估很難反映人工智能在開放且混亂的人類交互中的行為方式。
與此同時,人工智能係統已經走出實驗室,進入日常工作流程:起草電子郵件、編寫代碼、支持客戶、幫助研究和為專家提供建議。問題從“模型能做到這一點嗎?”轉變為“模型能做到這一點嗎?”到“當它發生時我們應該相信它嗎?”
這是一種不同類型的測量問題。
LMArena 的答案簡單而激進:停止孤立地記錄模型。用戶在其平台上提交並接收索賠 兩個匿名回复。沒有品牌。沒有型號名稱。只是回答。然後用戶選擇哪一種更好,哪一種不好。
一票。一比較。重複了數百萬次。
結果並不是絕對的“最佳”,但它是 A 人類偏好的生動信號 人們對現實世界中的語氣、清晰度、長度和實用性的反應。當某個聲明不再清晰或不可預測時,該信號就會發生變化。它體現了標準中經常缺失的東西。
真正的偏好,而不僅僅是正確性
LMArena 並不關心模型是否產生正確的答案。這是一個當他這樣做的時候人們是否喜歡的問題。這種區別很微妙,但在實踐中很有意義。現在,開發人員和實驗室在發布和產品決策之前會交叉引用 Arena 排行榜上的排名。 OpenAI、Google 和 Anthropic 的主要模型都會定期在那裡進行評估。
沒有傳統的營銷方式,LMArena已經成為手錶行業的一面鏡子。
為什麼投資者現在關心
1.5 億美元的融資不僅僅是對 LMArena 產品的信任票。他指出 AI評估本身已成為基礎設施。隨著模型數量的爆炸式增長,企業買家面臨一個新的問題:不是如何獲得人工智能,而是哪種人工智能值得信任。供應商的聲明和經典標準並不總是能轉化為現實世界的可靠性。內部測試既昂貴又緩慢。
位於模型構建者和用戶之間的中立第三方信號成為關鍵層。這就是LMArena 居住的地方。 於2025年9月推出 人工智能評估,一項商業服務,將其眾包比較引擎轉變為機構和實驗室可以付費使用的產品。 LMArena 表示,該服務在推出後的幾個月內就實現了約 3000 萬美元的年運行率。
對於監管者和政策制定者來說,這種以人為本的信號也很重要。控制框架需要反映真實使用情況的證據,而不是理想場景。
批評與競爭
LMArena 的做法並非沒有爭議。依賴公眾投票和眾包信號的平台可以反映活躍用戶的偏好,這可能不符合特定專業領域的需求。作為回應,競爭對手喜歡 AI 海豹突擊隊遭遇量表 這些分類的出現旨在提供跨語言、地區和專業背景的更詳細和更具代表性的類型分類。
學術研究還表明,如果保障措施不到位,基於投票的排行榜可能容易受到操縱,並且如果質量控制不嚴格,此類系統可能會偏向於明顯有吸引力的反應,而不是技術上正確的反應。
這些討論強調 沒有一種單一的評估方法可以涵蓋典型行為的所有維度; 但它也強調了對超越傳統規範的更豐富、更人性化的信號的需求。
信任不會自行擴展
人工智能中有一個悄悄的假設,即信任會隨著模型的改進而自然出現。按照邏輯,更好的推理會帶來更好的結果。該框架將一致性視為具有技術解決方案的技術問題。
LMArena 挑戰了這個想法。在現實環境中,信任是社會性的和情境性的。它是根據經驗而不是主張建立的。它們是由不會在音量下崩潰的反饋循環形成的。通過讓用戶而不是公司來決定什麼是有效的,LMArena 引入了摩擦,而行業通常更喜歡勢頭。它減慢了速度,足以讓人懷疑:“這實際上是更好還是更新?”
在由固定發布週期驅動的市場中,這是一個令人不安的問題。這也是為什麼LMArena的崛起似乎是不可避免的。
記分的安靜力量
LMArena 不保證安全。它不宣傳好或壞的模型。它不能取代組織或責任。它的作用更簡單、更強大:公開記錄分數。隨著人工智能係統成為日常決策不可或缺的一部分,隨著時間的推移跟踪績效變得越來越不可選。必須有人注意到回歸、情境轉變和可用性模式。
在體育運動中,裁判和統計學家扮演著這一角色。在市場上,審計師和評級機構就是這樣做的。在人工智能領域,我們仍在發明基礎設施。
LMArena 的這一輪融資表明,投資者相信這一角色不會長期處於邊緣地位。因為當人工智能無處不在時,最難的問題不是它是什麼 他可以 他做到了。他們 當我們這樣做時,我們信任誰,我們如何知道我們是對的。









