Результаты тестов этой архитектуры довольно впечатляющие.



Их измерения производственной нагрузки показали примерно 50% прирост пропускной способности при использовании дезагрегированного вывода по сравнению с традиционными системами. Ещё интереснее: задержка снизилась на 20-40% благодаря оптимизации маршрутизации с учётом кэша KV.

Это тоже не синтетические бенчмарки — все метрики получены из реальных производственных сред, где выполняются реальные пользовательские запросы.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
FlashLoanLarryvip
· 2ч назад
Черт возьми, 50% увеличение пропускной способности? Это не просто слова, реальные данные из производственной среды Задержка может снизиться еще на 40%, в области KV-кэша действительно есть что показать Фактические данные в производственной среде гораздо надежнее тех синтетических бенчмарков, которые я хочу видеть Если эта архитектура действительно сможет стабильно работать, возможно, придется изменить планы развертывания многих проектов
Посмотреть ОригиналОтветить0
WalletAnxietyPatientvip
· 8ч назад
Увеличение пропускной способности на 50%? Это действительно фейк, почему эти данные могут казаться слишком жёсткими? Оптимизация кэша KV существует уже давно, и мало что реально реализуется Данные из производственной среды надёжны, что лучше, чем на бумаге Если это правда, я считаю, что это может значительно сэкономить Задержка более чем на 20 пунктов меньше, что очень интересно для высокочастотной торговли Но какова устойчивость разделённого вывода — вот в чём ключ
Посмотреть ОригиналОтветить0
BoredWatchervip
· 8ч назад
Увеличение пропускной способности на 50%? Если это так, производственная среда может сэкономить много газа Оптимизация кэша KV очень жесткая, с задержкой 20-40%, что соответствует реальным данным Реальные данные запросов, выполняемые в производственной среде, гораздо более достоверны, чем эти бенчмарки Так это новое направление оптимизации LLM? Мне кажется, пришло время крупным заводам Эта архитектура умело спроектирована, чтобы избежать узких мест
Посмотреть ОригиналОтветить0
ConsensusBotvip
· 8ч назад
Увеличение пропускной способности на 50% звучит хорошо, но было ли это подтверждено с точки зрения реального производства и охраны окружающей среды, я так считаю Оптимизация маршрутизации кэша KV действительно является деталью, и снижение задержки на 20-40% не является преувеличением Погоди, как эта архитектура справляется с холодными запусками... Реальные производственные данные говорят лучше всего остального
Посмотреть ОригиналОтветить0
  • Закрепить