DeepSeek R1模型近日完成了一次小版本升级。该公司称,此次升级主要强化了语义理解的精准性、复杂逻辑推理能力以及长文本处理的稳定性。
尽管DeepSeek未公布更多细节,但网友测评后表示,模型的理解能力显著提升,例如在激活参数部分可以制作交互动画展示,关键信息逻辑也更加清晰。此外,R1的编程能力也大幅提升,有网友称其可以一次性生成1000多行无错误代码,甚至能与“编程新王”Claude 4一较高下。
此次升级是DeepSeek自今年3月发布DeepSeek-V3-0324模型后的首次更新。V3模型在数学、代码类评测集上超越了GPT-4.5和Claude-3.7-Sonnet,性价比极高,输入价格仅为Claude-3.7-Sonnet的1/11、GPT-4.5的1/277,且开源可免费用于商业用途。
Hugging Face的研究员Adina Yakefu表示,升级后的DeepSeek R1在减少幻觉(即提供错误信息)方面也有重大改进,显示出其不仅在追赶,更是在与顶级模型竞争。
DeepSeek的R1模型自1月发布以来,曾因多项指标优于西方竞争对手而引发全球关注,并导致科技股暴跌。然而,自V3模型发布后,DeepSeek的热度有所下降,市场更关注其R2模型的发布。此前有消息称,R2将采用混合专家模型(MoE),参数量预计达1.2万亿,单位推理成本较GPT-4大幅降低。但截至目前,DeepSeek仍未正式确认R2的发布时间。
R1推理模型的最新版本R1-0528再次引发了全球媒体的广泛关注。
路透社报道称,此次发布加剧了与美国竞争对手如OpenAI的竞争。在由加州大学伯克利分校、麻省理工学院和康奈尔大学研究人员开发的LiveCodeBench排行榜中,DeepSeek的R1-0528在代码生成方面仅略低于OpenAI的o4 mini和o3推理模型,但超过了xAI的Grok 3 mini和阿里巴巴的Qwen 3。
CNBC指出,DeepSeek此次升级模型发布低调,但其推理能力使其能够执行更复杂的任务。《华尔街日报》中文版则提到,DeepSeek的低成本、高性能R1模型自年初以来吸引了全球目光,推动了中国科技股的上涨,也显示出市场对中国AI能力的乐观预期。