DeepSeek(深度求索)再次推出新版开源AI模型,它的性能与美国最先进的AI模型虽然还有一些差距,但差距极小,成本低很多很多。西方许多人认为,美国限制中国AI发展的企图遇挫,中国正在加速前进,以更高效率打造高端AI模型。
去年12月,杭州幻方量化推出DeepSeek V3开源大语言模型,它的性能与OpenAI 40和Anthropic Claude 3.5 Sonnet差不多,当时OpenAI和Anthropic正在开发下一代模型。按照描述,V3的成本只有560万美元!要知道OpenAI、谷歌、Anthropic为了搭建、训练模型花费数亿美元,未来可能达几十亿。

Andrej Karpathy曾经说过,V3的投资“低得有些荒谬”,在资源受限的条件下,无论是研究还是工程,都取得了令人惊叹的成就。
DeepSeek创始人、CEO、幻方量化创始人梁文锋去年曾说:“对我们而言钱不是问题,先进芯片受限却是一个问题。”
V3是用Nvidia H800芯片训练的,它比美国版本性能弱一些,之后美国连Nvidia H800也禁了,不能向中国出售。
有人将同一时间发布的DeepSeek-R1-Zero和DeepSeek-R1进行了对比:
——DeepSeek-R1-Zero的优势:它具备创造性推理能力,擅长独立发现独特、创造性的推理策略。拥有自我验证与反思能力,可以验证自己的推理,在处理时进行反思,能有效进行长链思维。
——DeepSeek-R1的优势:可读性高,精准,模型输出的结果是可读的,更精致,出错率低。性能方面有强大竞争力,与最顶级的OpenAI模型可以一较高下,无论是数学、编程还是逻辑推理,都不逊色。
——DeepSeek-R1-Zero的弱点:输出有时会重复,显得杂乱,对用户不够友好,有时很难解释输出的结果。
相比较而言,DeepSeek-R1给出的结果更精致、更可靠,更加具有一致性。DeepSeek-R1-Zero在AI研究领域具有突破性意义,它向我们证明,单靠增强学习就能学会推理,不需要人类引导,这对AI发展来说具有里程碑意义。