Midjourney rencontre un rival ! Google AI peignant 4 grosses vaches, démarrez une entreprise, essayez gratuitement la technologie Imagen et gagnez 120 millions de financement providentiel
MidJourney, sur le trône de la peinture IA, a finalement introduit un adversaire puissant.
Le nouveau challenger, Ideogram, est né de nulle part. Au début, il comptait sur l'inscription gratuite pour attirer beaucoup d'attention.
La fonctionnalité la plus accrocheuse : Générer avec précision du texte dans l'image, le scientifique NVIDIA Fan Linxi l'a directement utilisé pour dessiner un "C'est fini, Midjourney".
L'entreprise derrière, Ideogram AI, est un projet entrepreneurial de Google AI peignant 4 grosses vaches qui sont parties collectivement, situées à Toronto, et ont été emportées par un financement de démarrage de 16,5 millions de dollars américains (environ 120 millions de dollars). yuan).
Les 4 premiers membres de l'équipe fondatrice sont tous les auteurs du article Google Vincent graph search Imagen, formant une équipe de recherche de premier plan sur les modèles de diffusion.
Les résultats de recherches avancées que Google a cachés pendant si longtemps et qui n'ont pas été exploités par tout le monde ont finalement été publiés par eux.
Le cycle de lancement d'Ideogram AI a été dirigé par a16z et Index Ventures.
Il existe également des personnalités bien connues parmi les investisseurs individuels, comme le membre fondateur d'OpenAI Andrej Karpathy, le gourou de l'apprentissage par renforcement Pieter Abbeel, le fondateur de Node.js Ryan Dahl, le co-fondateur de GitHub** Tom Preston-Werner** et coll.
Même l'ancien patron de l'équipe, l'ancien cerveau de Google Jeff Dean, a également participé.
Indépendamment du fait que l'équipe fondatrice est composée uniquement de formations techniques, Ideogram AI est également sans ambiguïté en termes de publicité et de promotion. Elle a directement appelé tout le monde à utiliser la deuxième balise de création sur 𝕏, ce qui a déclenché une vague de marketing viral.
L'IA apprend à dessiner du texte avec précision
Il a toujours été difficile de laisser l’IA dessiner du texte avec précision. Bien que les nouvelles fonctions de redessinage partiel de SDXL et Midjourney se soient améliorées, le taux de réussite des commentaires des internautes n'a pas été très élevé et des tentatives répétées sont nécessaires.
Une fois qu'Ideogram a résolu ce problème, il a été directement joué par les internautes.
Ce n'est pas un problème de laisser le texte apparaître sur le panneau et de s'adapter en même temps à la lumière et à l'ombre ambiantes.
C'est bien de faire un latte art.
Les affiches de style abstrait peuvent également proposer des polices avec des styles appropriés.
En un mot, le logo de la marque regorge d’attributs de productivité.
Il ressort également des mots d'invite partagés par les internautes que le « sort » pour augmenter la probabilité de réussite du dessin de texte est également très simple, un seul mot :
typographie (composition d'impression)
Mais c'est dommage qu'il ne maîtrise pas très bien le chinois.
Outre le texte, la capacité de génération d'images et la qualité de sortie d'Ideogram sont comparables à celles de MidJourney et Stable Diffusion.
Si vous utilisez exactement la même technologie qu'Imagen, l'utilisation de Google T5 au lieu d'OpenAI CLIP comme modèle de codage du langage signifie qu'Ideogram a une meilleure compréhension de la description de la relation spatiale dans les mots d'invite.
Quelqu'un l'a utilisé avec succès pour générer un ensemble d'images avec un style cohérent.
Associé à l'outil de génération vidéo Pika Labs, il permet de produire directement des courts métrages à la manière de bandes annonces de films.
Équipe de recherche supérieure sur les modèles de diffusion
L'équipe fondatrice d'Ideogram AI est composée de 7 personnes, dont 4 sont co-auteurs de Google Imagen.
Parmi eux, le co-auteur Mohammad Norouzi est le PDG. Il a reçu la bourse Google ML Ph.D. lors de son doctorat en informatique à l'Université de Toronto.
Après avoir obtenu son diplôme, il a rejoint Google Brain pendant 7 ans. En plus de générer des modèles, il a également été membre original de l'équipe de traduction automatique neuronale de Google et co-auteur du cadre d'apprentissage contrastif auto-supervisé de l'équipe Hinton, SimCLR.
Le co-auteur William Chan (Chen Junle) est le CTO de la nouvelle société. Il a étudié à l'Université de Waterloo au Canada et à l'Université Carnegie Mellon.
Lorsqu'il a rejoint Google en 2012, il a d'abord réalisé un projet publicitaire d'apprentissage automatique, puis a rejoint Google Brain pour des recherches en PNL.
Le troisième co-auteur Chitwan Saharia est diplômé du Bombay Institute of Technology, a rejoint Google en 2019 et est désormais co-fondateur d'Ideogram.
Le quatrième co-fondateur, le Dr Jonathan Ho**, est diplômé de l'UC Berkeley, a travaillé chez OpenAI pendant un an, puis a rejoint Google.
En plus d'être l'un des principaux contributeurs à l'article Imagen, il est également à l'origine du travail fondateur du modèle de diffusion de débruitage "Modèles probabilistes de diffusion de débruitage". Pieter Abbeel, l'un des co-auteurs de cet article, est également un investisseur dans Ideogram AI.
Les trois autres personnes de l'équipe fondatrice, Shayaan Abdullah, étaient ingénieur en apprentissage automatique chez Twitter, ont quitté l'entreprise en avril de cette année, puis ont rejoint Ideogram AI.
Jacob Lu est un ingénieur logiciel qui a travaillé chez Amazon et d'autres sociétés avant de rejoindre Ideogram ; Jenny Lei est une stagiaire en génie logiciel qui a travaillé chez Google avant de rejoindre Ideogram AI.
** il reste encore à générer des vidéos **
Les quatre co-créateurs d'Ideogram AI ont également réalisé le travail de suivi de la génération vidéo Imagen Video pendant Google.
Il y a un an, il a réalisé la génération de clips vidéo haute définition avec une résolution de 1280*768 et 24 images par seconde.
En fait, en mars de cette année, Qubit a appris du marché de l'investissement que sa valorisation providentielle atteignait 100 millions de dollars américains, que de plus en plus de sociétés de capital-risque voulaient donner de l'argent mais ne pouvaient pas rattraper leur retard, ne pouvaient pas investir, et plus de nouvelles sur leur esprit d'entreprise. direction:
** Non seulement la génération d'images, mais aussi la génération de vidéos à l'avenir. **
Indépendamment d'Imagen ou d'Imagen Video, Google n'a jamais publié de démos, d'API ou de codes open source pour des raisons de sécurité et d'éthique.
Les résultats de recherche ne peuvent pas être transformés en applications, ce qui est un problème courant rencontré par de nombreux entrepreneurs qui ont quitté Google ces dernières années.
Par exemple, parmi les huit auteurs de Transformer du côté des grands modèles, le fondateur de Cohere, Aidan Gomez, a déclaré un jour que la raison de son départ était "Je n'ai pas vu le vrai pouvoir du grand modèle chez Google".
La raison pour laquelle Ashish Vaswani et Niki Parmar ont quitté Google pour lancer Adept AI et Essential AI est également "Google veut utiliser Transformer pour optimiser les produits existants, et nous voulons créer de nouveaux produits".
Plus tard, ce que ces chercheurs craignaient s’est effectivement produit :
Bien qu'en mai 2021 (avant la date limite des données de formation ChatGPT), Google ait développé un modèle de dialogue LaMDA et un chatbot, mais il y a trop de soucis lors du lancement du produit, et finalement** 18 mois plus tard, a été directement ouvert au public par la porte voisineChatGPT** et a volé la vedette.
……
Après avoir appris ces leçons, Ideogram AI, nouvellement créée, a également adopté une posture consistant à être aussi ouverte que possible et à inciter d'abord les utilisateurs à jouer.
Un quota de tests de 1 000 personnes avait été initialement annoncé, mais il a été rapidement atteint.
Il semble que certains quotas aient été ouverts aujourd'hui et que les qubits n'aient pas rencontré de file d'attente lors de leur enregistrement dans la matinée.
Bref, le nombre de places devrait encore être limité, et ceux qui sont intéressés devraient se dépêcher.
Adresse d'essai :
Lien de référence :
[1] /lancement
[2]
[3]
[4]
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Midjourney rencontre un rival ! Google AI peignant 4 grosses vaches, démarrez une entreprise, essayez gratuitement la technologie Imagen et gagnez 120 millions de financement providentiel
Source originale : Qubit
MidJourney, sur le trône de la peinture IA, a finalement introduit un adversaire puissant.
Le nouveau challenger, Ideogram, est né de nulle part. Au début, il comptait sur l'inscription gratuite pour attirer beaucoup d'attention.
La fonctionnalité la plus accrocheuse : Générer avec précision du texte dans l'image, le scientifique NVIDIA Fan Linxi l'a directement utilisé pour dessiner un "C'est fini, Midjourney".
Les 4 premiers membres de l'équipe fondatrice sont tous les auteurs du article Google Vincent graph search Imagen, formant une équipe de recherche de premier plan sur les modèles de diffusion.
Il existe également des personnalités bien connues parmi les investisseurs individuels, comme le membre fondateur d'OpenAI Andrej Karpathy, le gourou de l'apprentissage par renforcement Pieter Abbeel, le fondateur de Node.js Ryan Dahl, le co-fondateur de GitHub** Tom Preston-Werner** et coll.
Même l'ancien patron de l'équipe, l'ancien cerveau de Google Jeff Dean, a également participé.
L'IA apprend à dessiner du texte avec précision
Il a toujours été difficile de laisser l’IA dessiner du texte avec précision. Bien que les nouvelles fonctions de redessinage partiel de SDXL et Midjourney se soient améliorées, le taux de réussite des commentaires des internautes n'a pas été très élevé et des tentatives répétées sont nécessaires.
Une fois qu'Ideogram a résolu ce problème, il a été directement joué par les internautes.
Ce n'est pas un problème de laisser le texte apparaître sur le panneau et de s'adapter en même temps à la lumière et à l'ombre ambiantes.
typographie (composition d'impression)
Si vous utilisez exactement la même technologie qu'Imagen, l'utilisation de Google T5 au lieu d'OpenAI CLIP comme modèle de codage du langage signifie qu'Ideogram a une meilleure compréhension de la description de la relation spatiale dans les mots d'invite.
Équipe de recherche supérieure sur les modèles de diffusion
L'équipe fondatrice d'Ideogram AI est composée de 7 personnes, dont 4 sont co-auteurs de Google Imagen.
Après avoir obtenu son diplôme, il a rejoint Google Brain pendant 7 ans. En plus de générer des modèles, il a également été membre original de l'équipe de traduction automatique neuronale de Google et co-auteur du cadre d'apprentissage contrastif auto-supervisé de l'équipe Hinton, SimCLR.
Lorsqu'il a rejoint Google en 2012, il a d'abord réalisé un projet publicitaire d'apprentissage automatique, puis a rejoint Google Brain pour des recherches en PNL.
En plus d'être l'un des principaux contributeurs à l'article Imagen, il est également à l'origine du travail fondateur du modèle de diffusion de débruitage "Modèles probabilistes de diffusion de débruitage". Pieter Abbeel, l'un des co-auteurs de cet article, est également un investisseur dans Ideogram AI.
Jacob Lu est un ingénieur logiciel qui a travaillé chez Amazon et d'autres sociétés avant de rejoindre Ideogram ; Jenny Lei est une stagiaire en génie logiciel qui a travaillé chez Google avant de rejoindre Ideogram AI.
** il reste encore à générer des vidéos **
Les quatre co-créateurs d'Ideogram AI ont également réalisé le travail de suivi de la génération vidéo Imagen Video pendant Google.
** Non seulement la génération d'images, mais aussi la génération de vidéos à l'avenir. **
Indépendamment d'Imagen ou d'Imagen Video, Google n'a jamais publié de démos, d'API ou de codes open source pour des raisons de sécurité et d'éthique.
Les résultats de recherche ne peuvent pas être transformés en applications, ce qui est un problème courant rencontré par de nombreux entrepreneurs qui ont quitté Google ces dernières années.
Par exemple, parmi les huit auteurs de Transformer du côté des grands modèles, le fondateur de Cohere, Aidan Gomez, a déclaré un jour que la raison de son départ était "Je n'ai pas vu le vrai pouvoir du grand modèle chez Google".
La raison pour laquelle Ashish Vaswani et Niki Parmar ont quitté Google pour lancer Adept AI et Essential AI est également "Google veut utiliser Transformer pour optimiser les produits existants, et nous voulons créer de nouveaux produits".
Plus tard, ce que ces chercheurs craignaient s’est effectivement produit :
Bien qu'en mai 2021 (avant la date limite des données de formation ChatGPT), Google ait développé un modèle de dialogue LaMDA et un chatbot, mais il y a trop de soucis lors du lancement du produit, et finalement** 18 mois plus tard, a été directement ouvert au public par la porte voisineChatGPT** et a volé la vedette.
……
Après avoir appris ces leçons, Ideogram AI, nouvellement créée, a également adopté une posture consistant à être aussi ouverte que possible et à inciter d'abord les utilisateurs à jouer.
Un quota de tests de 1 000 personnes avait été initialement annoncé, mais il a été rapidement atteint.
Bref, le nombre de places devrait encore être limité, et ceux qui sont intéressés devraient se dépêcher.
Lien de référence : [1] /lancement [2] [3] [4]