DeepSeek Model1：我们目前所知的一切？

什么是 DeepSeek Model1？

DeepSeek Model1 是在 FlashMLA GitHub 代码库提交中发现的一个此前未宣布的 AI 模型。该模型名称在核心解码函数的多个实例中出现，专门针对头维度为 64 和 128 的场景进行了适配，并部署在 SM90 和 SM100 架构上。

根据社区分析，Model1 很可能代表 DeepSeek 即将推出的 V4 模型——V3 系列的终极继任者。这一发现表明 Model1 与 DeepSeek 现有的 V3.2 模型采用了完全不同的技术路径，具有新的推理机制、算子结构和底层内存配置。

该模型似乎已接近完成，代码成熟度表明其处于高级开发阶段。多个核心组件已实现，包括 FP8 稀疏解码路径和与 V3.2 版本并存的持久化内核设计。

关键信息

发现时间：2025年1月于 FlashMLA 代码库
预计发布：2025年2月（春节前后）
平台支持：SM90 和 SM100 架构
核心创新：动态 Top-K 稀疏推理
内存对齐：576B 步长（V3.2 为 656B）

DeepSeek Model1 技术架构

为下一代 AI 模型性能设计的全新推理机制和算子结构。

⚡

SM90 & SM100 支持

Model1 专门针对 NVIDIA 的 SM90 和 SM100 架构进行了优化，在最新 GPU 平台上提供增强性能。

🧠

64 & 128 头维度

核心解码函数明确适配 64 和 128 头维度，为不同模型配置提供灵活性。

💾

576B 内存对齐

严格的 KV 缓存内存步长要求（576B 的倍数）与 V3.2 的 656B 不同，表明更复杂的运行时行为。

Model1 的革命性特性

区分 Model1 与之前 DeepSeek 模型的关键架构创新。

动态 Top-K 稀疏推理

Model1 引入了可变的 topk_length 指针，允许模型在推理期间根据 token 或请求动态决定参与计算的 key 数量。这实现了计算资源的精细调度和效率提升。

这种动态方法与静态键值选择有显著不同，可能在复杂推理任务上提供更好的性能，同时减少不必要的计算。

📊

额外的 KV 缓冲区系统

该实现包含一个额外的 KV 缓存缓冲区，能够将系统提示与用户上下文存储分离。这种设计对 Agent 架构和多段上下文场景特别有益。

通过为不同类型的上下文提供专用存储，Model1 可以优化内存管理，提高需要复杂提示结构的应用程序的推理效率。

💾

增强的同步逻辑

与 V3.2 相比，Model1 展示了更复杂的同步和边界控制。在双 GEMM 操作中，RoPE（旋转位置编码）和 NoPE 维度更加紧密耦合。

引入了运行时边界检查机制，以防止动态 Top-K 推理期间潜在的非法内存访问，解决了更灵活计算模式固有的安全问题。

🔒

代码证据：FlashMLA 中的 Model1

来自 FlashMLA 源代码库的直接证据，展示 Model1 的实现。

ModelType::Model1 引用

直接代码引用显示 Model1 是一个具有专用实现路径的独特模型类型。

DeepSeek FlashMLA 文件结构显示 Model1 与 V3.2 相比的持久化内核文件

持久化内核文件结构

Model1 持久化内核文件与 V3.2 版本并行存在，表明独立的编译路径。

FlashMLA 代码注释显示 Model1 KV 缓存内存步长要求为 576B

内存对齐注释

代码注释揭示了 Model1 KV 缓存的 576B 步长要求（后从代码库中删除）。

2025年1月9日

外媒首次报道 DeepSeek 下一代模型开发，引用知情人士消息。

2025年1月21日

FlashMLA 代码库更新揭示 Model1 代码引用，引发社区讨论。

当前

开发者继续分析代码结构；内存对齐注释已从代码库中删除。

查看 FlashMLA 代码库

社区反应与分析

开发者社区如何响应 Model1 的发现。

X 平台开发者讨论

自从在 FlashMLA 代码库中发现 Model1 以来，全球开发者一直在社交媒体平台上积极讨论其影响，许多人分析了技术细节和对 AI 领域的潜在影响。

一位开发者调侃道："我已经能听见'新模型将带来 99.97% 成本下降'了..."——引用了 DeepSeek 在效率提升方面的声誉。

另一位开发者指出，如果 DeepSeek 开放 Model1 权重，将"对闭源巨头形成压力"，推动开源生态系统发展。

Hugging Face 认可

恰逢 R1 模型发布一周年，Hugging Face 发布了一篇特别文章《One Year Since the "DeepSeek Moment"》，承认 DeepSeek 的开源战略已从单一事件演变为生态系统战略。

该博客强调了 R1 的开源发布如何降低了推理技术、生产部署和心理准入门槛，推动中国公司在开源方向上形成战略一致。

技术社区分析

社区开发者对 Model1 的代码结构进行了深入分析，识别出几个关键技术创新：

动态 Top-K 稀疏推理逻辑实现
用于系统提示分离的额外 KV 缓存缓冲区
双 GEMM 操作中 RoPE 和 NoPE 维度的增强耦合
安全动态推理的运行时边界检查机制
尽管注释为 576B，实际内存分配可能更接近 584B 的推测

DeepSeek Model1 发布信息

对即将到来的模型发布的预期。

发布时间线

预计日期：2025年2月（春节前后）
主要重点：增强的编程能力
基准性能：据报道在内部测试中，在多个基准上超越 Claude 和 GPT 系列
开发状态：基于代码成熟度接近完成
权重可用性：未知是否会像之前的模型一样开源

预期能力

根据内部消息和代码分析，Model1 预计将具备：

在编程任务和编程挑战方面的卓越性能
通过稀疏推理机制实现更高效的推理
通过增强的 KV 缓存管理更好地处理长上下文场景
在最新 GPU 架构（SM90/SM100）上的优化性能

该模型似乎代表了 V3 系列的重大架构演进，可能为开源 AI 模型能力建立新基准。

DeepSeek Model1我们目前所知的一切？