Skip to content
DeepSeek LLM 使用初体验
最近国产大模型 DeepSeek 表现亮眼,朋友圈被刷屏了好几轮。
作为一个对 AI 模型有点上头的人,我花了一周时间认真试了试。
第一印象
注册很简单,网页端直接就能用。界面简洁,没有花里胡哨的东西,上来就是一个对话框。
第一个问题我问的是:"用 Python 写一个简单的 LRU 缓存"。
它给的代码干净利落,注释也到位。不像有些模型,生成一堆代码还附带一大段"我来为您解释一下"的废话。
代码能力实测
这是我最关注的方向。测了几个场景:
算法题
丢了几道 LeetCode 中等难度的题目,通过率大约 80%。偶尔会在边界条件上翻车,但整体思路很清晰。
比起同期的文心一言和通义千问,代码质量明显高一截。
项目代码
让它写一个 Express 的 CRUD 接口,给出了完整的路由、中间件、错误处理。基本能直接跑。
不过它有个问题:生成的代码风格有点"教科书",不太像真实项目里会写的东西。这点跟 GPT-3.5 差不多。
Debug
把一段有 bug 的代码贴进去,它能准确定位问题——一个 async 函数里忘了 await。
定位速度比我自己看快多了,虽然这么说有点丢人。
中文对话能力
日常扯淡也试了试:
- 让它写一段产品文案,通顺自然,没有翻译腔
- 聊一些生活话题,比 GPT-3.5 的中文地道很多
- 不过深度讨论(比如哲学、社会问题)还是差 GPT-4 一个档次
中文是 DeepSeek 的强项,毕竟国内团队做的,语料优势在这。
和 GPT-3.5 的对比
用了一周之后的直觉判断:
| 维度 | DeepSeek | GPT-3.5 |
|---|---|---|
| 代码生成 | 略强 | 也行 |
| 中文理解 | 明显强 | 凑合 |
| 响应速度 | 快 | 快 |
| 复杂推理 | 一般 | 一般 |
| 价格 | 便宜 | 便宜 |
整体水平接近,但对于中文场景 DeepSeek 更舒服。
不足之处
也不是没有问题:
- 长对话容易"忘记"前面的上下文
- 生成内容有时候偏保守,不如 GPT 那么"放飞自我"
- 社区生态和工具链还不够丰富
用完之后的感觉
说实话,国产模型能做到这个水平,我是有点惊讶的。
之前试过几个国产模型,要么中文很好但代码不行,要么反过来。DeepSeek 算是两边都跑到了及格线以上。
后来 V3 出来之后更猛了,但那是后话了。
