DeepSeek نے नया मॉडल MODEL1 का ऐलान किया: एक साल में तकनीकी कदम

robot
Генерация тезисов в процессе

ДипСек достигла новых высот в своих технических разработках благодаря недавнему историческому объявлению. В начале января, через год после успеха модели DeepSke-R1, компания готовится представить новую модель MODEL1. Эта новость вызвала волну интереса среди экспертов отрасли и в технологическом мире.

Раскрытие технических изменений на GitHub

DeepSke обновила свой код на GitHub, намекая на значительные изменения. В обновлении было обнаружено упоминание “MODEL1” в 28 из 114 файлов, что свидетельствует о масштабных усилиях по созданию новой модели. Эти изменения в коде Flash MLA особенно важны и указывают на новый технический курс.

MODEL1 против V32: новая архитектура

Текущая версия V32, известная как DeepSke v3.2, будет отличаться от новой структуры MODEL1. Основные различия особенно заметны в трех ключевых областях: улучшении структуры KV Cache, изменениях в методах квантования и внедрении новой техники кодирования FP8D. Все эти изменения направлены на повышение эффективности системы.

Экономия памяти и новые достижения в вычислениях

Главное преимущество MODEL1 — улучшенное использование памяти во время вычислений. В различных этапах обработки применяются уникальные стратегии для экономии памяти. Эти изменения позволят новой модели DeepSke работать более эффективно и требовать меньших ресурсов, что является важным прорывом в отрасли.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить