DeepSeek V4ついにリリース!
比較してみた
現在最も強力なオープンソースモデルとなる
コード、数学、長文、エージェントの4大分野で世界トップクラスに達し、一部指標はGPT-4o、Claude Opus 4.6を超える。
一、バージョンと位置付け
- V4-Pro:フラッグシップ、GPT-4o/Opus 4.6に対抗、オープンソース最強。
- V4-Flash:軽量高速、コストパフォーマンス高。
- アーキテクチャ:1.6TパラメータのMoE、毎回約370Bを活性化;100万トークンのコンテキスト。
- 計算能力:Huawei昇腾950PRのフルスタック、NVIDIA離れ。
二、コア性能比較(権威ある評価)
1️⃣ プログラミング(最強項目)
- HumanEval:90%(>Opus 4.5 88%、>GPT-4 82%)。
- SWE-Bench:>80%、実際のソフトウェアエンジニアリング能力でリード。
- 結論:世界最強のAIプログラマー。
2️⃣ 数学/推論
- MATH/STEM:すべてのオープンソースモデルを超越、GPT-4o/Opus 4.6に匹敵。
- エージェント能力:Agentic Codingはオープンソース最高、Claude Sonnet 4.5を上回り、Opus 4.6に近い(思考モード非使用)。
3️⃣ 長文
原文表示