財經中心/廖珪如報導
▲全球AI競爭激烈,DeepSeekR1-0528聰明度已衝上全球第二。(圖/翻攝自微博)
據AI評測機構 Artificial Analysis 報告,中國人工智慧 (AI) 新創DeepSeek推出的R1-0528模型,智慧指數從60分跳升至68分,超越xAI、Meta、Anthropic等美國 AI 同業,與 Google Gemini 2.5 Pro並列全球第二,成為開源模型領域領導者。
DeepSeek R1-0528在多個測試項目都展現大幅進步。首先是數理能力的躍進。在AIME 2024 數學競賽測試中提升21 分,顯示其數學推理能力大幅增強。此外,程式設計表現優異,LiveCodeBench 程式碼生成測試進步 15 分,在 Artificial Analysis 的程式設計能力指數中,已追平Gemini 2.5 Pro,僅次於OpenAI 的 o4-mini 和o3 模型。
值得關注的是,GPQA Diamond 科學推理測試提升 10 分,《人類最後考卷》推理與知識測試也進步6分。這意味著 DeepSeek R1 的智慧水準已經超越xAI的Grok 3 mini(高階版)並與 Google 的 Gemini 2.5 Pro 達到相同水準。
Artificial Analysis是專門進行 AI 模型比較和分析的獨立機構,針對頂尖AI模型進行7項主流評估,建構出綜合性的智慧指數。該機構指出DeepSeek R1-0528版本的8分進步幅度,相當於 OpenAI從 o1模型進步到o3模型的差距(從 62 分提升至 70 分)。