DeepSeek V3 发布：国产开源模型的新标杆

发布时间：2025-01-10 08:00

标签：

最后编辑：2025-01-10 08:00

全文大约 0 字（读完需 1 分钟）

新年第一个大新闻，DeepSeek 发布了 V3。

作为一个关注国产 AI 的学生，这次发布让我非常兴奋。

核心参数

总参数量：671B（MoE 架构，激活参数 37B）
上下文长度：128K
训练数据：14.8T tokens
训练成本：约 550 万美元

550 万美元是什么概念？据说 GPT-4 训练成本超过 1 亿美元。

性能对比

官方对比结果：

测试项	DeepSeek V3	GPT-4o	Claude 3.5 Sonnet
MMLU	88.5	88.7	88.3
MATH	61.6	76.6	71.1
HumanEval	82.6	90.2	93.7
中文能力	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐

在中文理解和生成上，DeepSeek V3 是目前最强的。

为什么训练这么便宜

DeepSeek 团队做了很多工程优化：

MoE 架构：每次推理只激活部分参数
FP8 混合精度训练：节省显存和算力
Multi-Token Prediction：一次预测多个 token
自研框架：专门优化过的训练基础设施

这给整个行业提供了新思路：大模型不一定要烧太多钱。

怎么用

有几种方式：

官方 API

python

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.deepseek.com/v1"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "你好"}]
)

价格非常便宜，输入 1 元/百万 tokens。

本地部署

需要很大的显存（A100 80G x 8），学生党暂时别想了。

但可以跑量化版本，社区正在做。

对国产 AI 的意义

DeepSeek V3 证明了：

国产团队有能力做出世界顶级模型
不一定要砸天价训练费
开源可以做到和闭源一样好

作为学生，能免费用上这么强的国产模型，真的很幸运。

核心参数 ​

性能对比 ​

为什么训练这么便宜 ​

怎么用 ​

官方 API ​

本地部署 ​

对国产 AI 的意义 ​