✨ Побудовано на V3.1-Terminus, він вперше представляє DeepSeek Sparse Attention для більш ефективної обробки завдань з довгим контекстом.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
6
Репост
Поділіться
Прокоментувати
0/400
TokenSherpa
· 9год тому
ну насправді, дозвольте мені пояснити, чому рідка увага є фундаментально важливою для ефективності обробки токенів... *коригує окуляри*
Переглянути оригіналвідповісти на0
LiquidatedThrice
· 9год тому
Нарешті прийшло. Чи можемо увійти в позицію в цій хвилі?
Переглянути оригіналвідповісти на0
DustCollector
· 9год тому
О, ця модель знову оновилася!
Переглянути оригіналвідповісти на0
MonkeySeeMonkeyDo
· 9год тому
Ого, нова штука
Переглянути оригіналвідповісти на0
gas_fee_trauma
· 9год тому
Чому знову нова модель? Так набридло, не можу собі це дозволити.
Представляємо DeepSeek-V3.2-Exp — нашу останню експериментальну модель!
✨ Побудовано на V3.1-Terminus, він вперше представляє DeepSeek Sparse Attention для більш ефективної обробки завдань з довгим контекстом.