Deep Seek宣布了新模型MODEL1：一年内的技术进步

MetaMisfit · 2026-03-23T19:17:03+00:00

Deep Tech 宣布了一个新型号 MODEL1，展示了自 R1 发布以来的重大进展。关键亮点包括 GitHub 上的更新，表明广泛的开发工作、架构改进以及处理过程中增强的内存效率，标志着行业的显著飞跃。

2026-03-23 19:17:03

摘要生成中

DeepSec 通过最近的历史性公告将其技术进步提升到了新的高度。在一月初，DeepSec-R1 成功推出一年后，该公司准备推出新模型 MODEL1。这一消息在行业专家和科技界引起了广泛关注。

在 GitHub 上披露的技术变革

DeepSec 在其 GitHub 上更新了代码，暗示了重大变革。在此次更新中，在114个文件中的28个不同位置提到了“MODEL1”，显示出新模型开发的广泛努力。Flash MLA 代码中的这些变化尤为值得关注，指向了新的技术方向。

现有的 V32 版本，也就是 DeepSec V3.2，将与新架构的 MODEL1 不同。主要差异集中在三个关键领域：KV 缓存结构的改进、量化方法的变化，以及 FP8D 编码的新技术。这些改动旨在使系统更高效。

MODEL1 的一大优势在于在计算过程中显著节省内存。采用了独特的策略以在不同处理阶段减少内存使用。这些变化将使 DeepSec 的新模型在性能和资源需求方面得到提升，标志着行业的重要进步。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论