ellos aplican un MLP para proyectar tokens visuales de FastViTHD en el mundo del LLM
el resultado: muchos menos tokens (como 4× menos que FastViT, 16× menos que ViT‑L/14 a 336‑píxel res). Quiero decir, eso es una gran reducción en el conteo de tokens y complejidad, mientras
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
11 me gusta
Recompensa
11
7
Republicar
Compartir
Comentar
0/400
GlueGuy
· hace4h
Esta operación, en teoría, es bastante impresionante.
aquí es donde entra FastVLM
ellos aplican un MLP para proyectar tokens visuales de FastViTHD en el mundo del LLM
el resultado: muchos menos tokens (como 4× menos que FastViT, 16× menos que ViT‑L/14 a 336‑píxel res). Quiero decir, eso es una gran reducción en el conteo de tokens y complejidad, mientras