✨ Построенный на V3.1-Terminus, он дебютирует с DeepSeek Sparse Attention для более эффективной обработки задач с длинным контекстом.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
6
Репост
Поделиться
комментарий
0/400
TokenSherpa
· 9ч назад
ну на самом деле, позвольте мне объяснить, почему разреженное внимание является фундаментально критичным для эффективности обработки токенов... *подправляет очки*
Посмотреть ОригиналОтветить0
LiquidatedThrice
· 9ч назад
Наконец-то пришло. Можно войти в позицию в этот раз?
Посмотреть ОригиналОтветить0
DustCollector
· 9ч назад
А, эта модель опять обновилась.
Посмотреть ОригиналОтветить0
MonkeySeeMonkeyDo
· 9ч назад
Черт возьми, новая штука
Посмотреть ОригиналОтветить0
gas_fee_trauma
· 10ч назад
Почему снова новая модель? Так бесит, не могу себе это позволить.
Представляем DeepSeek-V3.2-Exp — нашу последнюю экспериментальную модель!
✨ Построенный на V3.1-Terminus, он дебютирует с DeepSeek Sparse Attention для более эффективной обработки задач с длинным контекстом.