下一代开源AI架构
探索在 DeepSeek 的 FlashMLA 代码库中发现的神秘新模型,其革命性的架构变化预计将于2025年2月发布。
查看 FlashMLA 代码库DeepSeek MODEL1 是在 FlashMLA GitHub 代码库提交中发现的一个此前未宣布的 AI 模型。该模型名称在核心解码函数的多个实例中出现,专门针对头维度为 64 和 128 的场景进行了适配,并部署在 SM90 和 SM100 架构上。
根据社区分析,MODEL1 很可能代表 DeepSeek 即将推出的 V4 模型——V3 系列的终极继任者。这一发现表明 MODEL1 与 DeepSeek 现有的 V3.2 模型采用了完全不同的技术路径,具有新的推理机制、算子结构和底层内存配置。
该模型似乎已接近完成,代码成熟度表明其处于高级开发阶段。多个核心组件已实现,包括 FP8 稀疏解码路径和与 V3.2 版本并存的持久化内核设计。
为下一代 AI 模型性能设计的全新推理机制和算子结构。
MODEL1 专门针对 NVIDIA 的 SM90 和 SM100 架构进行了优化,在最新 GPU 平台上提供增强性能。
核心解码函数明确适配 64 和 128 头维度,为不同模型配置提供灵活性。
严格的 KV 缓存内存步长要求(576B 的倍数)与 V3.2 的 656B 不同,表明更复杂的运行时行为。
区分 MODEL1 与之前 DeepSeek 模型的关键架构创新。
MODEL1 引入了可变的 topk_length 指针,允许模型在推理期间根据 token 或请求动态决定参与计算的 key 数量。这实现了计算资源的精细调度和效率提升。
这种动态方法与静态键值选择有显著不同,可能在复杂推理任务上提供更好的性能,同时减少不必要的计算。
该实现包含一个额外的 KV 缓存缓冲区,能够将系统提示与用户上下文存储分离。这种设计对 Agent 架构和多段上下文场景特别有益。
通过为不同类型的上下文提供专用存储,MODEL1 可以优化内存管理,提高需要复杂提示结构的应用程序的推理效率。
与 V3.2 相比,MODEL1 展示了更复杂的同步和边界控制。在双 GEMM 操作中,RoPE(旋转位置编码)和 NoPE 维度更加紧密耦合。
引入了运行时边界检查机制,以防止动态 Top-K 推理期间潜在的非法内存访问,解决了更灵活计算模式固有的安全问题。
来自 FlashMLA 源代码库的直接证据,展示 MODEL1 的实现。
直接代码引用显示 MODEL1 是一个具有专用实现路径的独特模型类型。
MODEL1 持久化内核文件与 V3.2 版本并行存在,表明独立的编译路径。
代码注释揭示了 MODEL1 KV 缓存的 576B 步长要求(后从代码库中删除)。
开发者社区如何响应 MODEL1 的发现。
自从在 FlashMLA 代码库中发现 MODEL1 以来,全球开发者一直在社交媒体平台上积极讨论其影响,许多人分析了技术细节和对 AI 领域的潜在影响。
一位开发者调侃道:"我已经能听见'新模型将带来 99.97% 成本下降'了..."——引用了 DeepSeek 在效率提升方面的声誉。
另一位开发者指出,如果 DeepSeek 开放 MODEL1 权重,将"对闭源巨头形成压力",推动开源生态系统发展。
恰逢 R1 模型发布一周年,Hugging Face 发布了一篇特别文章《One Year Since the "DeepSeek Moment"》,承认 DeepSeek 的开源战略已从单一事件演变为生态系统战略。
该博客强调了 R1 的开源发布如何降低了推理技术、生产部署和心理准入门槛,推动中国公司在开源方向上形成战略一致。
社区开发者对 MODEL1 的代码结构进行了深入分析,识别出几个关键技术创新:
对即将到来的模型发布的预期。
根据内部消息和代码分析,MODEL1 预计将具备:
该模型似乎代表了 V3 系列的重大架构演进,可能为开源 AI 模型能力建立新基准。