華爾街日報》這兩個加大伯克利分校博士生寫的AI排名網站,為何成為全球矚目的焦點?

留著鬍子的阿納斯塔西奧斯·安傑洛普洛斯和Chatbot Arena聯合負責人Wei-Lin Chiang上個月在加州伯克利的實驗室空間展示了該工具。 圖片來源:LAURA MORTON FOR WSJ
留著鬍子的阿納斯塔西奧斯·安傑洛普洛斯和Chatbot Arena聯合負責人Wei-Lin Chiang上個月在加州伯克利的實驗室空間展示了該工具。 圖片來源:LAURA MORTON FOR WSJ

唱片公司有《告示牌》百大單曲榜(Billboard Hot 100)。大學橄欖球有季後賽排名。人工智慧(AI)則有由兩名研究生營運的網站Chatbot Arena。

彼此是室友的阿納斯塔西奧斯·安傑洛普洛斯(Anastasios Angelopoulos)和Wei-Lin Chiang從未想過,他們去年開發的這個研究生計畫會迅速成為最受關注的全球最佳AI系統排名。

本文為風傳媒與華爾街日報正式合作授權轉載。加入VVIP會員請點此訂閱:風傳媒・華爾街日報VVIP,獨享全球最低優惠價,暢讀中英日文全版本之華爾街日報,洞悉國際政經最前沿。

一直以來,對AI技術的評估是通過高等數學、科學和法律測試進行的。Chatbot Arena讓用戶提出一個問題,從兩個匿名AI模型中獲得答案,並對哪個模型更好進行評分。

這些評分會被匯總到一個排行榜上,OpenAI、Google和Meta Platforms等矽谷巨頭與來自中國和歐洲的不太知名的新創公司在這個排行榜上爭奪霸主地位。

「每個公司都在努力成為這個排行榜上的佼佼者,」Meta Platforms的AI產品管理總監約瑟夫·斯皮薩克(Joseph Spisak)說。「幾個學生聚在一起就能產生如此大的影響力,這真是太棒了。」

Chatbot Arena開始走紅的背景是,科技公司投入數以十億美元計的資金,押注AI將是未來幾十年的決定性技術。任何被認為在競爭中取得的明顯優勢都可能在吸引客戶和人才方面產生巨大影響,這就是眾多科技高管和工程師像華爾街交易員關注市場一樣密切關注Chatbot Arena的原因。

加州大學伯克利分校(University of California, Berkeley)的研究人員於2023年4月推出了Chatbot Arena,旨在使用類似於專業國際象棋排名系統的評分系統,將他們開發的AI技術與其他開源聊天機器人進行比較。短短一周內,該網站就收到了4,700張投票。

Chatbot Arena項目團隊的成員由本科生和博士生組成,他們在加州大學伯克利分校Soda Hall的實驗室空間裡開完團隊會議後交談。 圖片來源:LAURA MORTON FOR WSJ
Chatbot Arena項目團隊的成員由本科生和博士生組成,他們在加州大學伯克利分校Soda Hall的實驗室空間裡開完團隊會議後交談。 圖片來源:LAURA MORTON FOR WSJ

該項目很快引起了大型AI公司的注意,這些公司開始要求Chatbot Arena的負責人將他們的技術納入排名。OpenAI一度躍居排行榜榜首,但在去年3月被競爭對手Anthropic趕超。

Chatbot Arena最初推出時只有九個AI模型,現在已經發展到對170多個模型進行排名,共獲得了200萬張投票。該網站已擴展到包括創意寫作、編寫程式和指令遵循等類別的單獨排名。

安傑洛普洛斯和Chiang仍在努力完成他們的電腦科學博士學位。不過,進展很慢,因為營運這個排行榜佔用了他們大部分時間,而且他們沒有報酬。

「我的女朋友整天整夜都在聽我談論Chatbot Arena,」安傑洛普洛斯說。

憑感覺打分

研究人員表示,隨著時間的推移,學術基準已經變得不那麼有用了,因為基準測試中的問題已經被納入支撐AI應用的大型語言模型(LLM),這實際上相當於讓模型提前知道了答案。 (相關報導: 華爾街日報》川普啟動「休克療法」,美國多個政府部門運轉停滯 更多文章

Google和OpenAI聲稱,它們在四年前發布的一個名為大規模多任務語言理解測評(Measuring Massive Multitask Language Understanding)的常用基準測試中,得分均高於90%。該測試的創建者之一丹·亨德里克斯(Dan Hendrycks)最近開始為一個最難新基準測試徵集問題,他將其命名為「人類終極考試」(Humanity’s Last Exam)。

因為你,我們得以前進,你的支持是我們的動力
更多文章
春節出遠門、祭祀 注意這些「水、火」降低風險過好年
別只知道日韓泰!2025年8個必訪亞洲景點「高CP值平價好玩」,風景絕美百去不膩
威士忌入門新手推薦!這款Whisky「層次豐富、順口不刺激」,搭配台菜熱炒都適合
過年哪裡可以看醫生?2招秒知道附近診所醫院有沒有開!春節期間天天有的看
春聯要什麼時候貼?忘記貼春聯怎麼辦?完整貼法/最佳時間/禁忌一次看
中國DeepSeek衝擊美股多收跌 輝達重挫逾16%市值蒸發近6000億美元
不是核桃腰果!營養師推1種優質堅果「富含維生素E、礦物質」,降膽固醇預防癌症
小耳朵》黃國昌也有怕的東西!戰神正和一件事大作戰
PChome靠創新稱霸十年!為何被蝦皮、momo雙面包抄?統一20億入股能否重返榮耀
麻婆豆腐怎麼煮才好吃?達人教3秘訣「鹹香麻入味、口感更滑嫩」,超下飯媲美熱炒店
斷捨離不是把雜物仍掉而已!比整理更重要的5件事:不要為了丟而丟
2025過年有垃圾車嗎?全台「春節垃圾清運時間」一鍵查!除夕到初五哪天有秒知
別再叫他們工作狂!疫後日本人休閒習慣大調查:重視休閒時間比例創歷史新高
60歲退休只靠勞保根本不夠用!達人教3招放大退休金,老年沒工作也不愁吃穿
豬腳、佛跳牆不是第一!營養師公布15種常見年菜熱量排行榜,冠軍根本熱量炸彈
從俄羅斯到北韓,藥物如何在戰爭和暗殺中扮演關鍵角色?
崔男觀點:川普主義暴衝,猛推百年大變局!
孔令信觀點:強勢反移民與基督精神對撞,川普帶領美國走進死胡同
呂政璋觀點:如何用「好自為之」在美中博弈中釋放弦外之音?
黃丙喜觀點:政論名嘴出任務!
張讚國觀點:春城無處不寄生,「壯世代」成怪獸
鄧鴻源觀點:與其點光明燈,不如反求諸己
觀點投書:打詐也別忘了更要解救「豬仔」!
觀點投書:卓榮泰內閣的荒唐操作:犧牲弱勢只為情勒
馬世芳專文:他揹起電吉他,改變了歷史也成為歷史
丘彥明專文:紫色的夏日
觀點投書:立法院預算審查應兼顧監督與決策執行效能
觀點投書:藍白合作對台灣民主的衝擊與挑戰
中國AI黑馬撼動生態 輝達股價大跌13%市值蒸發15兆
2025最新過年拜拜懶人包!「除夕到初五」拜祖先神明習俗、供品、流程、時間一文看
今天是2025除夕!專家傳授6大習俗與開運方法,紅包放這1處財運旺整年
高盛:DeepSeek衝擊晶片巨擘,避險基金暫停投資美AI
2025最新過年「除夕到初六」習俗禁忌懶人包!初一不可洗頭、初四不能做愛原因曝光
2025除夕習俗禁忌一次看!4生肖快去安太歲,命理師曝想發財必吃6食物
中國AI黑馬DeepSeek震撼市場 美股開盤重挫輝達暴跌
小草小年夜北所陪柯文哲 陳珮琪含淚將柯親筆文書傳承黃國昌
張忠謀首登Podcast訪問 透露見黃仁勳第一印象
民進黨死定了?郭正亮斷言大罷免結局 曝朱立倫出這怪招:2綠委嚇壞了
一文看懂DeepSeek!中國最新AI模型有何特別,為何能撼動矽谷與亞洲科技股價
賴總統首次春節談話 盼朝野和諧社會團結讓國家向前
小年夜赴五宮廟參香祈福 陳其邁:邀民眾搭捷運感受吉伊卡哇魅力
蛇麼都旺!黃文益發送總統、市長蛇年福袋 人潮綿延如蛇排列
蛇燦年華春到尖山埤!屬「蛇」免門票 遊山水逛市集再玩泡泡秀
金蛇迎喜、蛇麼都旺!大立限量新春好運超值福袋開賣
冬日遊樂園「吉伊卡哇」吸睛!高流加碼「舞吉派對」燈光展演
小年夜視察智慧運輸中心感謝同仁辛勞!陳其邁連線警廣 提醒用路人掌握路況
陶博館走春趣 「金蛇陶喜」天天熱鬧迎新春
過年遊茶博走春趣,嘶嘶如意好運蛇進來!
【下班經濟學】0存款8年圓買房夢?每年10分鐘多700萬退休金?華爾街操盤手的2堂理財課!