¡Midjourney se encuentra con un rival! Google AI pinta 4 vacas grandes, inicia un negocio, prueba la tecnología Imagen gratis y gana 120 millones de financiación ángel

Fuente original: Qubit

Fuente de la imagen: Generada por Unbounded AI‌

MidJourney, en el trono de la pintura con IA, finalmente marcó el comienzo de un oponente fuerte.

El nuevo retador, Ideogram, nació de la nada y al principio dependía del registro gratuito para atraer mucha atención.

La característica más llamativa: ** Genera texto con precisión en la imagen **, el científico de NVIDIA Fan Linxi lo usó directamente para dibujar un ** "Se acabó, mitad del viaje" **.

La compañía detrás de esto, Ideogram AI, es un proyecto empresarial de Google AI que pinta cuatro vacas grandes que se fueron colectivamente, ubicadas en Toronto, y arrasaron con una financiación inicial de USD 16,5 millones (alrededor de 120 millones). yuan).

Los primeros 4 miembros del equipo fundador son todos los autores del artículo Imagen de investigación gráfica de Google Vincent, formando un equipo de investigación de primer nivel en modelos de difusión.

Los resultados de la investigación avanzada que Google ha ocultado durante tanto tiempo y que no todos han reproducido finalmente han sido publicados por ellos.

La ronda inicial de Ideogram AI fue dirigida por a16z e Index Ventures.

También hay inversores personales conocidos, como el miembro fundador de OpenAI Andrej Karpathy, el gurú del aprendizaje por refuerzo Pieter Abbeel, el fundador de Node.js Ryan Dahl, el cofundador de GitHub Tom Preston -Werner et al.

Incluso participó el antiguo jefe del equipo, el exlíder cerebral de Google, Jeff Dean.

Independientemente del hecho de que el equipo fundador tiene experiencia técnica, Ideogram AI también es inequívoco en términos de publicidad y promoción: llamó directamente a todos a usar la segunda etiqueta de creación en 𝕏, lo que inició una ola de marketing viral.

La IA aprende a dibujar texto con precisión

Siempre ha sido un problema permitir que la IA dibuje texto con precisión. Aunque las nuevas funciones de redibujado parcial de SDXL y Midjourney han mejorado, la tasa de éxito de los comentarios de los internautas no ha sido muy alta y se requieren intentos repetidos.

Una vez que Ideogram resolvió este problema, los internautas lo jugaron directamente.

No hay problema en dejar que el texto aparezca en el cartel y adaptarse a la luz y sombra ambiental al mismo tiempo.

Está bien hacer un arte del café con leche.

Los carteles de estilo abstracto también pueden crear fuentes con estilos apropiados.

En una palabra, el logo de la marca está lleno de atributos de productividad.

También se puede ver en las palabras clave compartidas por los internautas que el "hechizo" para aumentar la probabilidad de éxito al dibujar texto también es muy simple, solo una palabra:

tipografía (composición tipográfica de impresión)

Pero es una lástima que no domine muy bien el chino.

Aparte del texto, la capacidad de generación de imágenes y la calidad de salida de Ideogram son comparables a MidJourney y Stable Diffusion.

Si usa exactamente la misma tecnología que Imagen, entonces usar Google T5 en lugar de OpenAI CLIP como modelo de codificación de lenguaje significa que Ideogram tiene una comprensión más sólida de la descripción de la relación espacial en las palabras clave.

Alguien lo ha utilizado con éxito para generar un conjunto de imágenes con un estilo coherente.

Combinado con la herramienta de generación de vídeo Pika Labs, puede producir directamente cortometrajes al estilo de avances de películas.

Equipo superior de investigación del modelo de difusión

El equipo fundador de Ideogram AI está formado por 7 personas, 4 de las cuales son coautores de Google Imagen.

Entre ellos, el coautor Mohammad Norouzi es el director ejecutivo y recibió la beca de doctorado Google ML durante su doctorado en Ciencias de la Computación en la Universidad de Toronto.

Después de graduarse, se unió a Google Brain durante 7 años. Además de generar modelos, también fue miembro original del equipo de traducción automática neuronal de Google y coautor del marco de aprendizaje contrastivo autosupervisado SimCLR del equipo de Hinton.

El coautor William Chan (Chen Junle) es el CTO de la nueva empresa y ha estudiado en la Universidad de Waterloo en Canadá y en la Universidad Carnegie Mellon.

Cuando se unió a Google en 2012, primero realizó un proyecto publicitario de aprendizaje automático y luego se transfirió a Google Brain para realizar investigaciones sobre PNL.

El tercer coautor Chitwan Saharia se graduó en el Instituto de Tecnología de Bombay, se unió a Google en 2019 y ahora es cofundador de Ideogram.

El cuarto cofundador, el Dr. Jonathan Ho**, se graduó en UC Berkeley, trabajó en OpenAI durante un año y luego se unió a Google.

Además de ser un colaborador principal del artículo de Imagen, también es el trabajo fundamental del modelo de difusión de denoising "Denoising Diffusion Probabilistic Models". Pieter Abbeel, uno de los coautores de este artículo, también es un inversor en Ideogram AI.

Las otras tres personas del equipo fundador, Shayaan Abdullah, era ingeniero de aprendizaje automático en Twitter, se fue en abril de este año y luego se unió a Ideogram AI.

Jacob Lu es un ingeniero de software que trabajó en Amazon y otras empresas antes de unirse a Ideogram; Jenny Lei es una pasante de ingeniería de software que trabajó en Google antes de unirse a Ideogram AI.

** todavía necesito generar video **

Los cuatro creadores conjuntos de Ideogram AI también completaron el trabajo de seguimiento de generación de video Imagen Video en Google.

Hace un año, logró la generación de videoclips de alta definición con resolución de 1280*768 y 24 fotogramas por segundo.

De hecho, en marzo de este año, Qubit se enteró por el mercado de inversiones de que su valoración de ronda ángel alcanzó los 100 millones de dólares estadounidenses, más capitalistas de riesgo querían donar dinero pero no podían ponerse al día, no podían invertir y más noticias sobre su emprendimiento. dirección:

** No solo generación de imágenes, sino también generación de videos en el futuro. **

Independientemente de Imagen o Imagen Video, Google nunca ha lanzado demostraciones, API o códigos fuente abiertos debido a consideraciones éticas y de seguridad.

Los resultados de la investigación no se pueden transformar en aplicaciones, lo cual es un problema común que enfrentan muchos emprendedores que abandonaron Google en los últimos años.

Por ejemplo, entre los ocho autores de Transformer en el lado de los grandes modelos, Aidan Gómez, el fundador de Cohere, dijo una vez que la razón para irse fue *"No vi el poder real del gran modelo en Google" *.

La razón por la que Ashish Vaswani y Niki Parmar dejaron Google para iniciar Adept AI y Essential AI también es "Google quiere utilizar Transformer para optimizar los productos existentes y nosotros queremos crear nuevos productos".

Más tarde, sucedió lo que estos investigadores temían:

Aunque mayo de 2021 (antes de la fecha límite de datos de capacitación de ChatGPT) Google desarrolló un modelo de diálogo LaMDA y un chatbot, hay demasiadas preocupaciones sobre el lanzamiento del producto y, finalmente** 18 meses después, fue abierto directamente al público por la puerta de al ladoChatGPT** y se robó el protagonismo.

……

Habiendo aprendido estas lecciones, el recién creado Ideogram AI también ha adoptado una postura de ser lo más abierto posible y atraer primero a los usuarios para que jueguen.

Inicialmente se anunció una cuota de pruebas de 1.000 personas, pero se llenó en poco tiempo.

Parece que hoy se abrieron algunas cuotas y los qubits no encontraron cola cuando se registraron por la mañana.

En resumen, el número de plazas debería seguir siendo limitado y los interesados deberían darse prisa.

Dirección de prueba:

Link de referencia: [1] /lanzamiento [2] [3] [4]

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)