DeepSeek MODEL1
我们目前所知的一切

下一代开源AI架构

探索在 DeepSeek 的 FlashMLA 代码库中发现的神秘新模型,其革命性的架构变化预计将于2025年2月发布。

查看 FlashMLA 代码库

什么是 DeepSeek MODEL1?

DeepSeek MODEL1 是在 FlashMLA GitHub 代码库提交中发现的一个此前未宣布的 AI 模型。该模型名称在核心解码函数的多个实例中出现,专门针对头维度为 64 和 128 的场景进行了适配,并部署在 SM90 和 SM100 架构上。

根据社区分析,MODEL1 很可能代表 DeepSeek 即将推出的 V4 模型——V3 系列的终极继任者。这一发现表明 MODEL1 与 DeepSeek 现有的 V3.2 模型采用了完全不同的技术路径,具有新的推理机制、算子结构和底层内存配置。

该模型似乎已接近完成,代码成熟度表明其处于高级开发阶段。多个核心组件已实现,包括 FP8 稀疏解码路径和与 V3.2 版本并存的持久化内核设计。

关键信息

  • 发现时间:2025年1月于 FlashMLA 代码库
  • 预计发布:2025年2月(春节前后)
  • 平台支持:SM90 和 SM100 架构
  • 核心创新:动态 Top-K 稀疏推理
  • 内存对齐:576B 步长(V3.2 为 656B)

DeepSeek MODEL1 技术架构

为下一代 AI 模型性能设计的全新推理机制和算子结构。

SM90 & SM100 支持

MODEL1 专门针对 NVIDIA 的 SM90 和 SM100 架构进行了优化,在最新 GPU 平台上提供增强性能。

🧠

64 & 128 头维度

核心解码函数明确适配 64 和 128 头维度,为不同模型配置提供灵活性。

💾

576B 内存对齐

严格的 KV 缓存内存步长要求(576B 的倍数)与 V3.2 的 656B 不同,表明更复杂的运行时行为。

MODEL1 的革命性特性

区分 MODEL1 与之前 DeepSeek 模型的关键架构创新。

动态 Top-K 稀疏推理

MODEL1 引入了可变的 topk_length 指针,允许模型在推理期间根据 token 或请求动态决定参与计算的 key 数量。这实现了计算资源的精细调度和效率提升。

这种动态方法与静态键值选择有显著不同,可能在复杂推理任务上提供更好的性能,同时减少不必要的计算。

📊

额外的 KV 缓冲区系统

该实现包含一个额外的 KV 缓存缓冲区,能够将系统提示与用户上下文存储分离。这种设计对 Agent 架构和多段上下文场景特别有益。

通过为不同类型的上下文提供专用存储,MODEL1 可以优化内存管理,提高需要复杂提示结构的应用程序的推理效率。

💾

增强的同步逻辑

与 V3.2 相比,MODEL1 展示了更复杂的同步和边界控制。在双 GEMM 操作中,RoPE(旋转位置编码)和 NoPE 维度更加紧密耦合。

引入了运行时边界检查机制,以防止动态 Top-K 推理期间潜在的非法内存访问,解决了更灵活计算模式固有的安全问题。

🔒

代码证据:FlashMLA 中的 MODEL1

来自 FlashMLA 源代码库的直接证据,展示 MODEL1 的实现。

FlashMLA 源代码显示 GitHub 代码库中的 ModelType::MODEL1 引用

ModelType::MODEL1 引用

直接代码引用显示 MODEL1 是一个具有专用实现路径的独特模型类型。

DeepSeek FlashMLA 文件结构显示 MODEL1 与 V3.2 相比的持久化内核文件

持久化内核文件结构

MODEL1 持久化内核文件与 V3.2 版本并行存在,表明独立的编译路径。

FlashMLA 代码注释显示 MODEL1 KV 缓存内存步长要求为 576B

内存对齐注释

代码注释揭示了 MODEL1 KV 缓存的 576B 步长要求(后从代码库中删除)。

2025年1月9日
外媒首次报道 DeepSeek 下一代模型开发,引用知情人士消息。
2025年1月21日
FlashMLA 代码库更新揭示 MODEL1 代码引用,引发社区讨论。
当前
开发者继续分析代码结构;内存对齐注释已从代码库中删除。

社区反应与分析

开发者社区如何响应 MODEL1 的发现。

X 平台开发者讨论

海外开发者在 X 平台讨论 MODEL1 身份

自从在 FlashMLA 代码库中发现 MODEL1 以来,全球开发者一直在社交媒体平台上积极讨论其影响,许多人分析了技术细节和对 AI 领域的潜在影响。

一位开发者调侃道:"我已经能听见'新模型将带来 99.97% 成本下降'了..."——引用了 DeepSeek 在效率提升方面的声誉。

另一位开发者指出,如果 DeepSeek 开放 MODEL1 权重,将"对闭源巨头形成压力",推动开源生态系统发展。

Hugging Face 认可

Hugging Face 官方博客:DeepSeek Moment 一周年

恰逢 R1 模型发布一周年,Hugging Face 发布了一篇特别文章《One Year Since the "DeepSeek Moment"》,承认 DeepSeek 的开源战略已从单一事件演变为生态系统战略。

该博客强调了 R1 的开源发布如何降低了推理技术、生产部署和心理准入门槛,推动中国公司在开源方向上形成战略一致。

技术社区分析

社区开发者对 MODEL1 的代码结构进行了深入分析,识别出几个关键技术创新:

  • 动态 Top-K 稀疏推理逻辑实现
  • 用于系统提示分离的额外 KV 缓存缓冲区
  • 双 GEMM 操作中 RoPE 和 NoPE 维度的增强耦合
  • 安全动态推理的运行时边界检查机制
  • 尽管注释为 576B,实际内存分配可能更接近 584B 的推测

DeepSeek MODEL1 发布信息

对即将到来的模型发布的预期。

发布时间线

  • 预计日期:2025年2月(春节前后)
  • 主要重点:增强的编程能力
  • 基准性能:据报道在内部测试中,在多个基准上超越 Claude 和 GPT 系列
  • 开发状态:基于代码成熟度接近完成
  • 权重可用性:未知是否会像之前的模型一样开源

预期能力

根据内部消息和代码分析,MODEL1 预计将具备:

  • 在编程任务和编程挑战方面的卓越性能
  • 通过稀疏推理机制实现更高效的推理
  • 通过增强的 KV 缓存管理更好地处理长上下文场景
  • 在最新 GPU 架构(SM90/SM100)上的优化性能

该模型似乎代表了 V3 系列的重大架构演进,可能为开源 AI 模型能力建立新基准。