元のソース: Qubit 画像ソース: Unbounded AI によって生成AI 絵画の王座にある MidJourney に、ついに強力な敵が登場しました。新しい挑戦者である **Ideogram** は、どこからともなく生まれ、当初は無料登録に頼って大きな注目を集めました。最も目を引く機能: **画像内のテキストを正確に生成**、NVIDIA の科学者 Fan Linxi は、**「終わりました、ミッドジャーニー」** を描画するためにそれを直接使用しました。 その背後にある企業 **Ideogram AI** は、トロントにある、集団で去った 4 頭の大きな牛を描く Google AI の起業家プロジェクトであり、**1,650 万米ドル** (約 1 億 2,000 万ドル) のシードラウンド資金を調達して参入しました。元)。創設チームの最初の 4 メンバーは全員 **Google Vincent グラフ研究 Imagen 論文**の著者であり、拡散モデルのトップ研究チームを形成しています。 Google が長らく隠し、誰もがプレイすることのなかった高度な研究結果が、ついに Google によって公開されました。 Ideogram AI シードラウンドは **a16z** と **Index Ventures** によって主導されました。OpenAI 創設メンバー **Andrej Karpathy**、強化学習の第一人者 **Pieter Abbeel**、Node.js 創設者 **Ryan Dahl**、GitHub 共同創設者 **Tom Preston などの著名な個人投資家もいます。 -ヴェルナー**ら。チームの古い上司である元 Google ブレイン リーダー **ジェフ ディーン** も参加しました。 Ideogram AI は、創業チーム全員が技術系のバックグラウンドを持っているにも関わらず、宣伝やプロモーションの面でも明確であり、𝕏 で二次創作タグを使用するよう直接呼びかけ、バイラル マーケティングの波を引き起こしました。## **AI はテキストを正確に描画することを学習します**AI にテキストを正確に描画させるのは常に課題でした。 SDXLとMidjourneyの新しい部分再描画機能は改善されましたが、ネチズンからのフィードバックの成功率はそれほど高くなく、繰り返しの試行が必要です。Ideogram がこの問題点を解決すると、ネチズンによって直接プレイされるようになりました。文字を標識に表示し、同時に周囲の光と影に適応させることは問題ありません。 ラテアートを作っても大丈夫です。 抽象的なスタイルのポスターには、適切なスタイルのフォントを使用することもできます。 一言で言えば、ブランドロゴには生産性の要素が詰まっています。 ネチズンによって共有されたプロンプトの言葉からも、テキストの描画の成功確率を高める「呪文」も非常に簡単で、たった 1 つの単語であることがわかります。**タイポグラフィ** (印刷植字) ただ、中国語の習得があまり得意ではないのが残念です。 テキストを除けば、Ideogram の画像生成機能と出力品質は MidJourney や Stable Diffusion に匹敵します。Imagen とまったく同じテクノロジーを使用している場合、言語エンコード モデルとして OpenAI CLIP の代わりに Google T5 を使用することは、Ideogram がプロンプトの単語内の空間関係の説明をより深く理解できることを意味します。 誰かがこれを使用して、一貫したスタイルを持つ一連の画像を生成することに成功しました。 ビデオ生成ツール Pika Labs と組み合わせると、映画の予告編風のショートフィルムを直接作成できます。## **普及モデルトップ研究チーム**Ideogram AI の創設チームは 7 人で構成されており、そのうち 4 人は Google Imagen の共著者です。 このうち、共著者である **Mohammad Norouzi** は CEO であり、トロント大学でコンピューター サイエンスの博士号を取得している間に Google ML Ph.D. 奨学金を受賞しました。卒業後、Google Brain に 7 年間入社し、モデルの生成に加えて、Google Neural Machine Translation チームのオリジナル メンバーであり、Hinton チームの自己教師あり対照学習フレームワーク SimCLR の共著者でもありました。 共著者である **William Chan** (Chen Junle) は新会社の CTO であり、カナダのウォータールー大学とカーネギーメロン大学で学んだことがあります。2012 年に Google に入社したとき、彼は最初に機械学習の広告プロジェクトに取り組み、その後 NLP 研究のために Google Brain に異動しました。 3 人目の共著者である **Chitwan Saharia** はボンベイ工科大学を卒業し、2019 年に Google に入社し、現在は Ideogram の共同創設者です。 4 番目の共同創設者である Jonathan Ho** 博士は、カリフォルニア大学バークレー校を卒業し、OpenAI で 1 年間働いた後、Google に入社しました。Imagen 論文の中心的な寄稿者であることに加えて、彼はノイズ除去拡散モデル **「ノイズ除去拡散確率モデル」** の基礎的な研究者でもあります。この論文の共著者の 1 人である Pieter Abbeel は、また、 Ideogram AI の投資家。 創設チームの他の 3 人である **Shayaan Abdullah** は Twitter の機械学習エンジニアで、今年 4 月に退職し、その後 Ideogram AI に入社しました。**Jacob Lu** は、Ideogram に入社する前は Amazon やその他の企業で働いていたソフトウェア エンジニアです。**Jenny Lei** は、Ideogram AI に入社する前は Google で働いていたソフトウェア エンジニアリングのインターンです。## ** ビデオ生成を行う必要があります **Ideogram AI の共同作成者 4 人は、Google 時代にビデオ生成 **Imagen Video** のフォローアップ作業も完了しました。 1 年前、解像度 1280*768、毎秒 24 フレームの高解像度ビデオ クリップの生成を実現しました。 実際、今年の 3 月に、Qubit は投資市場から、エンジェルラウンドの評価額が 1 億米ドルに達し、より多くの VC が資金提供を望んでいたが追いつかず、投資できなかったこと、そして彼らの起業家精神に関するさらなるニュースを知りました。方向:** 画像生成だけでなく、将来的にはビデオ生成も可能になります。 **Imagen または Imagen Video に関係なく、Google はセキュリティと倫理上の配慮から、デモ、API、またはオープン ソース コードをリリースしたことはありません。**研究結果をアプリケーションに変換できない**。これは、近年 Google を辞めた多くの起業家が遭遇する共通の問題です。たとえば、Transformer のビッグ モデル側の 8 人の著者のうち、Cohere 創設者 Aidan Gomez はかつて退社の理由を **「Google でビッグ モデルの真の力を理解できなかった」** と述べました。Ashish Vaswani 氏と Niki Parmar 氏が Google を離れて Adept AI と Essential AI を開始した理由も、**「Google は Transformer を使用して既存の製品を最適化したいと考えており、我々は新しい製品を作成したいと考えている」** からです。その後、研究者たちが懸念していたことが実際に起こりました。**2021 年 5 月** (ChatGPT トレーニング データの期限より早い) ですが、Google は **LaMDA** 対話モデルとチャットボットを開発しましたが、製品の発売にはあまりにも多くの懸念があり、最終的には 18 か月後に**、 **隣の**ChatGPT** によって直接公開され、脚光を浴びました。……こうした教訓を踏まえ、新設されたIdeogram AIも、できる限りオープンにして、まずはユーザーに遊んでもらう姿勢をとっている。当初は1,000人の検査枠が発表されたが、すぐに満席となった。 今日はいくつかのクォータがオープンされたようで、量子ビットは午前中に登録したときにキューに遭遇しませんでした。つまり、席数にはまだ限りがあるはずなので、興味のある人はお早めに。 トライアルアドレス:参考リンク:[1] /打ち上げ[2][3][4]
旅の途中でライバルと遭遇! Google AI ペイント 4 頭の大きな牛がビジネスを開始、Imagen テクノロジーを無料で試し、1 億 2,000 万のエンジェルファイナンスを獲得
元のソース: Qubit
AI 絵画の王座にある MidJourney に、ついに強力な敵が登場しました。
新しい挑戦者である Ideogram は、どこからともなく生まれ、当初は無料登録に頼って大きな注目を集めました。
最も目を引く機能: 画像内のテキストを正確に生成、NVIDIA の科学者 Fan Linxi は、「終わりました、ミッドジャーニー」 を描画するためにそれを直接使用しました。
創設チームの最初の 4 メンバーは全員 Google Vincent グラフ研究 Imagen 論文の著者であり、拡散モデルのトップ研究チームを形成しています。
OpenAI 創設メンバー Andrej Karpathy、強化学習の第一人者 Pieter Abbeel、Node.js 創設者 Ryan Dahl、GitHub 共同創設者 Tom Preston などの著名な個人投資家もいます。 -ヴェルナーら。
チームの古い上司である元 Google ブレイン リーダー ジェフ ディーン も参加しました。
AI はテキストを正確に描画することを学習します
AI にテキストを正確に描画させるのは常に課題でした。 SDXLとMidjourneyの新しい部分再描画機能は改善されましたが、ネチズンからのフィードバックの成功率はそれほど高くなく、繰り返しの試行が必要です。
Ideogram がこの問題点を解決すると、ネチズンによって直接プレイされるようになりました。
文字を標識に表示し、同時に周囲の光と影に適応させることは問題ありません。
タイポグラフィ (印刷植字)
Imagen とまったく同じテクノロジーを使用している場合、言語エンコード モデルとして OpenAI CLIP の代わりに Google T5 を使用することは、Ideogram がプロンプトの単語内の空間関係の説明をより深く理解できることを意味します。
普及モデルトップ研究チーム
Ideogram AI の創設チームは 7 人で構成されており、そのうち 4 人は Google Imagen の共著者です。
卒業後、Google Brain に 7 年間入社し、モデルの生成に加えて、Google Neural Machine Translation チームのオリジナル メンバーであり、Hinton チームの自己教師あり対照学習フレームワーク SimCLR の共著者でもありました。
2012 年に Google に入社したとき、彼は最初に機械学習の広告プロジェクトに取り組み、その後 NLP 研究のために Google Brain に異動しました。
Imagen 論文の中心的な寄稿者であることに加えて、彼はノイズ除去拡散モデル 「ノイズ除去拡散確率モデル」 の基礎的な研究者でもあります。この論文の共著者の 1 人である Pieter Abbeel は、また、 Ideogram AI の投資家。
Jacob Lu は、Ideogram に入社する前は Amazon やその他の企業で働いていたソフトウェア エンジニアです。Jenny Lei は、Ideogram AI に入社する前は Google で働いていたソフトウェア エンジニアリングのインターンです。
** ビデオ生成を行う必要があります **
Ideogram AI の共同作成者 4 人は、Google 時代にビデオ生成 Imagen Video のフォローアップ作業も完了しました。
** 画像生成だけでなく、将来的にはビデオ生成も可能になります。 **
Imagen または Imagen Video に関係なく、Google はセキュリティと倫理上の配慮から、デモ、API、またはオープン ソース コードをリリースしたことはありません。
研究結果をアプリケーションに変換できない。これは、近年 Google を辞めた多くの起業家が遭遇する共通の問題です。
たとえば、Transformer のビッグ モデル側の 8 人の著者のうち、Cohere 創設者 Aidan Gomez はかつて退社の理由を 「Google でビッグ モデルの真の力を理解できなかった」 と述べました。
Ashish Vaswani 氏と Niki Parmar 氏が Google を離れて Adept AI と Essential AI を開始した理由も、「Google は Transformer を使用して既存の製品を最適化したいと考えており、我々は新しい製品を作成したいと考えている」 からです。
その後、研究者たちが懸念していたことが実際に起こりました。
2021 年 5 月 (ChatGPT トレーニング データの期限より早い) ですが、Google は LaMDA 対話モデルとチャットボットを開発しましたが、製品の発売にはあまりにも多くの懸念があり、最終的には 18 か月後に**、 隣のChatGPT** によって直接公開され、脚光を浴びました。
……
こうした教訓を踏まえ、新設されたIdeogram AIも、できる限りオープンにして、まずはユーザーに遊んでもらう姿勢をとっている。
当初は1,000人の検査枠が発表されたが、すぐに満席となった。
つまり、席数にはまだ限りがあるはずなので、興味のある人はお早めに。
参考リンク: [1] /打ち上げ [2] [3] [4]