Skip to content

DeepSeek V3 发布:国产开源模型的新标杆

发布时间:2025-01-10 08:00
最后编辑:2025-01-10 08:00
全文大约 0 字(读完需 1 分钟)

新年第一个大新闻,DeepSeek 发布了 V3。

作为一个关注国产 AI 的学生,这次发布让我非常兴奋。

核心参数

  • 总参数量:671B(MoE 架构,激活参数 37B)
  • 上下文长度:128K
  • 训练数据:14.8T tokens
  • 训练成本:约 550 万美元

550 万美元是什么概念?据说 GPT-4 训练成本超过 1 亿美元。

性能对比

官方对比结果:

测试项DeepSeek V3GPT-4oClaude 3.5 Sonnet
MMLU88.588.788.3
MATH61.676.671.1
HumanEval82.690.293.7
中文能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

在中文理解和生成上,DeepSeek V3 是目前最强的。

为什么训练这么便宜

DeepSeek 团队做了很多工程优化:

  1. MoE 架构:每次推理只激活部分参数
  2. FP8 混合精度训练:节省显存和算力
  3. Multi-Token Prediction:一次预测多个 token
  4. 自研框架:专门优化过的训练基础设施

这给整个行业提供了新思路:大模型不一定要烧太多钱。

怎么用

有几种方式:

官方 API

python
from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.deepseek.com/v1"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "你好"}]
)

价格非常便宜,输入 1 元/百万 tokens。

本地部署

需要很大的显存(A100 80G x 8),学生党暂时别想了。

但可以跑量化版本,社区正在做。

对国产 AI 的意义

DeepSeek V3 证明了:

  1. 国产团队有能力做出世界顶级模型
  2. 不一定要砸天价训练费
  3. 开源可以做到和闭源一样好

作为学生,能免费用上这么强的国产模型,真的很幸运。

Built with ❤️ using VitePress v2 & Vue & Vite