вот где вступает в дело FastVLM



они накладывают MLP для проекции визуальных токенов из FastViTHD в мир LLM

результат: значительно меньше токенов (, например, в 4 раза меньше, чем FastViT, в 16 раз меньше, чем ViT‑L/14 при разрешении 336 пикселей ). Я имею в виду, что это большое снижение количества токенов и сложности, в то время как
IN-7.14%
MLP7.29%
PIXEL-2.33%
TOKEN-1.77%
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Репост
  • Поделиться
комментарий
0/400
GlueGuyvip
· 9ч назад
Это действие, в принципе, довольно крутое
Посмотреть ОригиналОтветить0
rekt_but_resilientvip
· 14ч назад
Здесь огромный рост!
Посмотреть ОригиналОтветить0
GasFeeLovervip
· 09-02 14:39
Ну и ладно, что тут хорошего хвалить.
Посмотреть ОригиналОтветить0
ser_we_are_earlyvip
· 09-02 14:39
Кажется, FastVLM действительно удивительный.
Посмотреть ОригиналОтветить0
BlockchainBardvip
· 09-02 14:38
Ужасно удивлен, количество токенов шокировало.
Посмотреть ОригиналОтветить0
WhaleWatchervip
· 09-02 14:27
Снова придумали что-то новое!
Посмотреть ОригиналОтветить0
DiamondHandsvip
· 09-02 14:23
Аааа, я немного в недоумении от того, что меня дует...
Посмотреть ОригиналОтветить0
  • Закрепить