GPQA Diamond  

約 1 項搜尋結果
OpenAI 公布的數據顯示,GPT-5.2 在多項專業測試中刷新先前紀錄,包括 SWE-Bench Pro 與 GPQA Diamond 等高標準評估。更具指標性的是 GDPval 測試,這項評估橫跨 44 種專業工作,而 GPT-5.2 在其中「70.9% 的明確任務上擊敗或追平業界頂尖專業人士」。(美聯社)

GPT-5.2正式登場!3版本Instant/Thinking/Pro用起來有何差別?年齡偵測/成人模式亮點一次看