2025-06-06 21:16:48

👀 Nemotron-H menangani penalaran skala besar sambil mempertahankan kecepatan -- dengan 4x throughput dari model transformer yang sebanding.⚡

Lihat bagaimana penelitian ini mencapainya menggunakan arsitektur hybrid Mamba-Transformer, dan penyempurnaan model ➡️

A1,04%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

18 Suka