они накладывают MLP для проекции визуальных токенов из FastViTHD в мир LLM
результат: значительно меньше токенов (, например, в 4 раза меньше, чем FastViT, в 16 раз меньше, чем ViT‑L/14 при разрешении 336 пикселей ). Я имею в виду, что это большое снижение количества токенов и сложности, в то время как
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
11 Лайков
Награда
11
7
Репост
Поделиться
комментарий
0/400
GlueGuy
· 9ч назад
Это действие, в принципе, довольно крутое
Посмотреть ОригиналОтветить0
rekt_but_resilient
· 14ч назад
Здесь огромный рост!
Посмотреть ОригиналОтветить0
GasFeeLover
· 09-02 14:39
Ну и ладно, что тут хорошего хвалить.
Посмотреть ОригиналОтветить0
ser_we_are_early
· 09-02 14:39
Кажется, FastVLM действительно удивительный.
Посмотреть ОригиналОтветить0
BlockchainBard
· 09-02 14:38
Ужасно удивлен, количество токенов шокировало.
Посмотреть ОригиналОтветить0
WhaleWatcher
· 09-02 14:27
Снова придумали что-то новое!
Посмотреть ОригиналОтветить0
DiamondHands
· 09-02 14:23
Аааа, я немного в недоумении от того, что меня дует...
вот где вступает в дело FastVLM
они накладывают MLP для проекции визуальных токенов из FastViTHD в мир LLM
результат: значительно меньше токенов (, например, в 4 раза меньше, чем FastViT, в 16 раз меньше, чем ViT‑L/14 при разрешении 336 пикселей ). Я имею в виду, что это большое снижение количества токенов и сложности, в то время как