亞馬遜員工把「LLM結合快打旋風」!測試全球14個LLMs誰最強 第一名是這1家新創公司的模型

2024-04-09 17:40

? 人氣

將14個LLMs結合快打旋風進行測試,很快便能清楚看出各個模型的差異度和能力。(圖/翻攝自X/Stan Girard)

將14個LLMs結合快打旋風進行測試,很快便能清楚看出各個模型的差異度和能力。(圖/翻攝自X/Stan Girard)

一位來自亞馬遜(Amazon)的員工近日將一項大型語言模型(以下簡稱LLM)開源專案結合《快打旋風》遊戲,且測試全球當前14個LLM哪一個能力最強!奪下第一名的模型隨即受到矚目。

[啟動LINE推播] 每日重大新聞通知

這名亞馬遜員工名為Banjo Obayomi,他取用的開源專案名為「LLM Colosseum」,是由兩位工程人員Stan Girard與Quivr Brain所開發,最初這項開源專案推出時,目的即是期望透過LLM來更精準控制遊戲角色對決

而Banjo Obayomi將此開源專案用來測試14個LLMs,測試過程中,各個LLM會依據遊戲當前設定好的場景、氛圍文字描述來決定角色的下一步行動,包含相互接近、後退或執行波動拳或升龍拳等技能。

角色的每一個動作決策都得以從中看出LLM的理解能力和戰略預測成效。

(圖/翻攝自YT/DataOpsDC)
在LLM Colosseum測試過程中,可從遊戲角色的攻守策略看出每個模型的理解和反應能力。(圖/翻攝自YT/DataOpsDC)

經過測試後,最終14個LLMs中脫穎而出的,是claude_3_haiku!共計參與了314場比賽,而測試結果也顯示,較小型的LLM能做出更快速動作,招式較多樣,以速度和反應能力取勝。

(圖/翻攝自X/Stan Girard)
Stan Girard即是LLM Colosseum開源專案的開發者。(圖/翻攝自X/Stan Girard)

最後,不得不特別介紹,冠軍Claude 3 Haiku模型即是由新創公司Anthropic所推出的模型!

Anthropic所推出的Claude 3系列目前被封為「全球最強AI模型」,且Anthropic公司自信斷言,這是當前速度最快、最強的模型,相較該公司另外推出的Opus和Sonnet版本,Haiku是其中最為輕巧且迅速的,同時成本也是最低的。

延伸閱讀:

Claude 3是什麼?新創公司Anthropic曝「測試手段被它抓包」記者拜訪研發團隊揪1詭異現象

喜歡這篇文章嗎?

周育信喝杯咖啡,

告訴我這篇文章寫得真棒!

來自贊助者的話
關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章