Skip to content
DeepSeek V3 发布:国产开源模型的新标杆
新年第一个大新闻,DeepSeek 发布了 V3。
作为一个关注国产 AI 的学生,这次发布让我非常兴奋。
核心参数
- 总参数量:671B(MoE 架构,激活参数 37B)
- 上下文长度:128K
- 训练数据:14.8T tokens
- 训练成本:约 550 万美元
550 万美元是什么概念?据说 GPT-4 训练成本超过 1 亿美元。
性能对比
官方对比结果:
| 测试项 | DeepSeek V3 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU | 88.5 | 88.7 | 88.3 |
| MATH | 61.6 | 76.6 | 71.1 |
| HumanEval | 82.6 | 90.2 | 93.7 |
| 中文能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
在中文理解和生成上,DeepSeek V3 是目前最强的。
为什么训练这么便宜
DeepSeek 团队做了很多工程优化:
- MoE 架构:每次推理只激活部分参数
- FP8 混合精度训练:节省显存和算力
- Multi-Token Prediction:一次预测多个 token
- 自研框架:专门优化过的训练基础设施
这给整个行业提供了新思路:大模型不一定要烧太多钱。
怎么用
有几种方式:
官方 API
python
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.deepseek.com/v1"
)
response = client.chat.completions.create(
model="deepseek-chat",
messages=[{"role": "user", "content": "你好"}]
)价格非常便宜,输入 1 元/百万 tokens。
本地部署
需要很大的显存(A100 80G x 8),学生党暂时别想了。
但可以跑量化版本,社区正在做。
对国产 AI 的意义
DeepSeek V3 证明了:
- 国产团队有能力做出世界顶级模型
- 不一定要砸天价训练费
- 开源可以做到和闭源一样好
作为学生,能免费用上这么强的国产模型,真的很幸运。
