亞馬遜員工把「LLM結合快打旋風」！測試全球14個LLMs誰最強　第一名是這1家新創公司的模型-風傳媒

一位來自亞馬遜（Amazon）的員工近日將一項大型語言模型（以下簡稱LLM）開源專案結合《快打旋風》遊戲，且測試全球當前14個LLM哪一個能力最強！奪下第一名的模型隨即受到矚目。

這名亞馬遜員工名為Banjo Obayomi，他取用的開源專案名為「LLM Colosseum」，是由兩位工程人員Stan Girard與Quivr Brain所開發，最初這項開源專案推出時，目的即是期望透過LLM來更精準控制遊戲角色對決。

而Banjo Obayomi將此開源專案用來測試14個LLMs，測試過程中，各個LLM會依據遊戲當前設定好的場景、氛圍文字描述來決定角色的下一步行動，包含相互接近、後退或執行波動拳或升龍拳等技能。

角色的每一個動作決策都得以從中看出LLM的理解能力和戰略預測成效。

在LLM Colosseum測試過程中，可從遊戲角色的攻守策略看出每個模型的理解和反應能力。（圖／翻攝自YT／DataOpsDC）

經過測試後，最終14個LLMs中脫穎而出的，是claude_3_haiku！共計參與了314場比賽，而測試結果也顯示，較小型的LLM能做出更快速動作，招式較多樣，以速度和反應能力取勝。

Stan Girard即是LLM Colosseum開源專案的開發者。（圖／翻攝自X／Stan Girard）

最後，不得不特別介紹，冠軍Claude 3 Haiku模型即是由新創公司Anthropic所推出的模型！

Anthropic所推出的Claude 3系列目前被封為「全球最強AI模型」，且Anthropic公司自信斷言，這是當前速度最快、最強的模型，相較該公司另外推出的Opus和Sonnet版本，Haiku是其中最為輕巧且迅速的，同時成本也是最低的。

延伸閱讀：

Claude 3是什麼？新創公司Anthropic曝「測試手段被它抓包」記者拜訪研發團隊揪1詭異現象

亞馬遜員工把「LLM結合快打旋風」！測試全球14個LLMs誰最強　第一名是這1家新創公司的模型