DeepSeek LLM 使用初体验

发布时间：2024-04-01 08:00

标签：

人工智能 AI

最后编辑：2024-04-01 08:00

全文大约 0 字（读完需 1 分钟）

最近国产大模型 DeepSeek 表现亮眼，朋友圈被刷屏了好几轮。

作为一个对 AI 模型有点上头的人，我花了一周时间认真试了试。

第一印象

注册很简单，网页端直接就能用。界面简洁，没有花里胡哨的东西，上来就是一个对话框。

第一个问题我问的是："用 Python 写一个简单的 LRU 缓存"。

它给的代码干净利落，注释也到位。不像有些模型，生成一堆代码还附带一大段"我来为您解释一下"的废话。

代码能力实测

这是我最关注的方向。测了几个场景：

算法题

丢了几道 LeetCode 中等难度的题目，通过率大约 80%。偶尔会在边界条件上翻车，但整体思路很清晰。

比起同期的文心一言和通义千问，代码质量明显高一截。

项目代码

让它写一个 Express 的 CRUD 接口，给出了完整的路由、中间件、错误处理。基本能直接跑。

不过它有个问题：生成的代码风格有点"教科书"，不太像真实项目里会写的东西。这点跟 GPT-3.5 差不多。

Debug

把一段有 bug 的代码贴进去，它能准确定位问题——一个 async 函数里忘了 await。

定位速度比我自己看快多了，虽然这么说有点丢人。

中文对话能力

日常扯淡也试了试：

让它写一段产品文案，通顺自然，没有翻译腔
聊一些生活话题，比 GPT-3.5 的中文地道很多
不过深度讨论（比如哲学、社会问题）还是差 GPT-4 一个档次

中文是 DeepSeek 的强项，毕竟国内团队做的，语料优势在这。

和 GPT-3.5 的对比

用了一周之后的直觉判断：

维度	DeepSeek	GPT-3.5
代码生成	略强	也行
中文理解	明显强	凑合
响应速度	快	快
复杂推理	一般	一般
价格	便宜	便宜

整体水平接近，但对于中文场景 DeepSeek 更舒服。

不足之处

也不是没有问题：

长对话容易"忘记"前面的上下文
生成内容有时候偏保守，不如 GPT 那么"放飞自我"
社区生态和工具链还不够丰富

用完之后的感觉

说实话，国产模型能做到这个水平，我是有点惊讶的。

之前试过几个国产模型，要么中文很好但代码不行，要么反过来。DeepSeek 算是两边都跑到了及格线以上。

后来 V3 出来之后更猛了，但那是后话了。

第一印象 ​

代码能力实测 ​

算法题 ​

项目代码 ​

Debug ​

中文对话能力 ​

和 GPT-3.5 的对比 ​

不足之处 ​

用完之后的感觉 ​