Tether Data deu um passo importante em direção à ciência aberta, introduzindo o QVAC Genesis II – um conjunto de dados educativos com 148 mil milhões de tokens abrangendo 19 áreas acadêmicas. A versão anterior, Genesis I, continha 41 mil milhões de tokens, representando um aumento de mais de 150%, posicionando esta solução como o maior conjunto de treino sintético de acesso público no mundo.
Por que 148 Mil Milhões de Tokens São Uma Mudança de Jogo?
A maioria dos conjuntos de dados de treino de IA contemporâneos permanece fechada em sistemas proprietários, limitando o acesso a investigadores independentes e instituições académicas. O Genesis II muda essa dinâmica, disponibilizando um enorme conjunto de dados sob uma licença Creative Commons Attribution–NonCommercial 4.0. Essa escala de 148 mil milhões de tokens permite treinar modelos que compreendem as coisas de forma mais profunda – não apenas prevendo texto, mas explicando suas escolhas e raciocínios.
A Tether Data propôs uma nova abordagem chamada Option-Level Reasoning. Em vez de tratar respostas corretas em testes de múltipla escolha como o único caminho de aprendizagem, essa técnica analisa cada opção – tanto as corretas quanto as crenças incorretas comuns. Assim, os modelos aprendem a reconhecer por que uma resposta específica falha, e não apenas a memorizar qual é a correta.
Estrutura e Disponibilidade
O conjunto de dados cobre 19 áreas académicas e foca na profundidade do raciocínio educativo. Cada elemento foi criado com valor educativo em mente – combinando análise de falhas com Option-Level Reasoning num processo de validação em duas etapas. O Genesis II está disponível através da plataforma Hugging Face, juntamente com documentação completa e ferramentas.
Testes independentes mostram que modelos treinados com o Genesis II alcançam maior precisão no raciocínio e fornecem explicações de forma mais coerente. Essa mudança de uma fluidez superficial para uma compreensão estrutural representa uma diferença fundamental.
Visão de uma IA Descentralizada
Paolo Ardoino, CEO da Tether, destacou a filosofia do projeto: “A maior parte do treino de IA hoje otimiza a liquidez, não a compreensão. Com esta publicação, vamos além – apostamos na estrutura, raciocínio e clareza.” A disponibilização aberta de 148 mil milhões de tokens permite que investigadores construam sistemas de IA sem depender de plataformas de nuvem centralizadas.
A iniciativa apoia o desenvolvimento descentralizado de IA e elimina barreiras estruturais enfrentadas por grupos de investigação menores. À medida que a IA se expande para educação, ciência e serviços financeiros, a importância de conjuntos de treino abertos, explicáveis e confiáveis aumentará – e o Genesis II estabelece um novo padrão para essa categoria.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
QVAC Genesis II: Novo Padrão para Treinamento de IA com 148 Mil Milhões de Tokens
Tether Data deu um passo importante em direção à ciência aberta, introduzindo o QVAC Genesis II – um conjunto de dados educativos com 148 mil milhões de tokens abrangendo 19 áreas acadêmicas. A versão anterior, Genesis I, continha 41 mil milhões de tokens, representando um aumento de mais de 150%, posicionando esta solução como o maior conjunto de treino sintético de acesso público no mundo.
Por que 148 Mil Milhões de Tokens São Uma Mudança de Jogo?
A maioria dos conjuntos de dados de treino de IA contemporâneos permanece fechada em sistemas proprietários, limitando o acesso a investigadores independentes e instituições académicas. O Genesis II muda essa dinâmica, disponibilizando um enorme conjunto de dados sob uma licença Creative Commons Attribution–NonCommercial 4.0. Essa escala de 148 mil milhões de tokens permite treinar modelos que compreendem as coisas de forma mais profunda – não apenas prevendo texto, mas explicando suas escolhas e raciocínios.
A Tether Data propôs uma nova abordagem chamada Option-Level Reasoning. Em vez de tratar respostas corretas em testes de múltipla escolha como o único caminho de aprendizagem, essa técnica analisa cada opção – tanto as corretas quanto as crenças incorretas comuns. Assim, os modelos aprendem a reconhecer por que uma resposta específica falha, e não apenas a memorizar qual é a correta.
Estrutura e Disponibilidade
O conjunto de dados cobre 19 áreas académicas e foca na profundidade do raciocínio educativo. Cada elemento foi criado com valor educativo em mente – combinando análise de falhas com Option-Level Reasoning num processo de validação em duas etapas. O Genesis II está disponível através da plataforma Hugging Face, juntamente com documentação completa e ferramentas.
Testes independentes mostram que modelos treinados com o Genesis II alcançam maior precisão no raciocínio e fornecem explicações de forma mais coerente. Essa mudança de uma fluidez superficial para uma compreensão estrutural representa uma diferença fundamental.
Visão de uma IA Descentralizada
Paolo Ardoino, CEO da Tether, destacou a filosofia do projeto: “A maior parte do treino de IA hoje otimiza a liquidez, não a compreensão. Com esta publicação, vamos além – apostamos na estrutura, raciocínio e clareza.” A disponibilização aberta de 148 mil milhões de tokens permite que investigadores construam sistemas de IA sem depender de plataformas de nuvem centralizadas.
A iniciativa apoia o desenvolvimento descentralizado de IA e elimina barreiras estruturais enfrentadas por grupos de investigação menores. À medida que a IA se expande para educação, ciência e serviços financeiros, a importância de conjuntos de treino abertos, explicáveis e confiáveis aumentará – e o Genesis II estabelece um novo padrão para essa categoria.