Giữa cuộc hành trình gặp một đối thủ! Google AI vẽ 4 con bò lớn khởi nghiệp, dùng thử công nghệ Imagen miễn phí và giành được 120 triệu tài trợ thiên thần
MidJourney, trên ngai vàng của hội họa AI, cuối cùng cũng gặp phải một đối thủ mạnh.
Người thách thức mới nhất, Ideogram, không biết từ đâu ra đời. Lúc đầu, anh ta dựa vào việc đăng ký miễn phí để thu hút nhiều sự chú ý.
Tính năng bắt mắt nhất: Tạo văn bản chính xác trong ảnh, nhà khoa học Fan Linxi của NVIDIA đã trực tiếp sử dụng nó để vẽ một "Hết rồi, giữa cuộc hành trình".
Công ty đằng sau nó, Ideogram AI, là một dự án kinh doanh của Google AI vẽ 4 con bò lớn đã cùng nhau rời đi, đặt trụ sở tại Toronto và tham gia với vòng tài trợ hạt giống 16,5 triệu đô la Mỹ (khoảng 120 triệu nhân dân tệ).
4 thành viên đầu tiên của nhóm sáng lập đều là tác giả của Bài báo Imagen nghiên cứu biểu đồ Google Vincent, tạo thành nhóm nghiên cứu hàng đầu về các mô hình khuếch tán.
Những kết quả nghiên cứu nâng cao mà Google giấu kín bấy lâu nay mà không phải ai cũng chơi cuối cùng cũng đã được họ tung ra.
Vòng hạt giống Ideogram AI được dẫn dắt bởi a16z và Index Ventures.
Ngoài ra còn có những nhân vật nổi tiếng trong số các nhà đầu tư cá nhân, chẳng hạn như thành viên sáng lập OpenAI Andrej Karpathy, chuyên gia học tăng cường Pieter Abbeel, người sáng lập Node.js Ryan Dahl, đồng sáng lập GitHub ** Tom Preston-Werner** và cộng sự.
Ngay cả sếp cũ của nhóm, cựu lãnh đạo bộ não Google Jeff Dean cũng tham gia.
Bất chấp việc nhóm sáng lập đều có nền tảng kỹ thuật, Ideogram AI cũng rõ ràng về mặt quảng cáo và quảng bá, nó trực tiếp kêu gọi mọi người sử dụng thẻ tạo thứ hai trên 𝕏, điều này đã bắt đầu một làn sóng tiếp thị lan truyền.
AI học cách vẽ văn bản một cách chính xác
Việc để AI vẽ văn bản một cách chính xác luôn là một vấn đề. Mặc dù chức năng vẽ lại một phần mới của SDXL và Midjourney đã được cải thiện nhưng tỷ lệ phản hồi thành công từ cư dân mạng chưa cao lắm và cần phải thử lại nhiều lần.
Sau khi Ideogram giải quyết được điểm yếu này, nó đã được cư dân mạng trực tiếp chơi.
Không có vấn đề gì khi để văn bản xuất hiện trên bảng hiệu và đồng thời thích ứng với ánh sáng và bóng tối xung quanh.
Làm nghệ thuật pha cà phê cũng được.
Áp phích phong cách trừu tượng cũng có thể đưa ra các phông chữ với phong cách phù hợp.
Nói một cách dễ hiểu, logo thương hiệu có đầy đủ các thuộc tính về năng suất.
Cũng có thể thấy qua những lời nhắc được cư dân mạng chia sẻ rằng “bùa chú” tăng khả năng vẽ chữ thành công cũng rất đơn giản, chỉ một chữ:
kiểu chữ (sắp chữ in)
Nhưng thật đáng tiếc là nó không giỏi tiếng Trung lắm.
Ngoài văn bản, khả năng tạo hình ảnh và chất lượng đầu ra của Ideogram có thể so sánh với MidJourney và Stable Diffusion.
Nếu bạn sử dụng công nghệ tương tự như Imagen, thì việc sử dụng Google T5 thay vì OpenAI CLIP làm mô hình mã hóa ngôn ngữ có nghĩa là Ideogram hiểu rõ hơn về mô tả mối quan hệ không gian trong các từ gợi ý.
Ai đó đã sử dụng thành công nó để tạo ra một bộ hình ảnh có phong cách nhất quán.
Kết hợp với công cụ tạo video Pika Labs, nó có thể trực tiếp sản xuất những bộ phim ngắn theo phong cách trailer phim.
Nhóm nghiên cứu hàng đầu về mô hình khuếch tán
Nhóm sáng lập Ideogram AI gồm 7 người, trong đó có 4 người là đồng tác giả của Google Imagen.
Trong số đó, đồng tác giả Mohammad Norouzi là Giám đốc điều hành. Ông đã nhận được Học bổng Tiến sĩ Google ML trong thời gian làm Tiến sĩ về Khoa học Máy tính tại Đại học Toronto.
Sau khi tốt nghiệp, anh ấy đã tham gia Google Brain trong 7 năm. Ngoài việc tạo ra các mô hình, anh ấy còn là thành viên ban đầu của nhóm Dịch máy thần kinh của Google và là đồng tác giả của khung học tập tương phản SimCLR tự giám sát của nhóm Hinton.
Đồng tác giả William Chan (Chen Junle) là CTO của công ty mới, từng học tại Đại học Waterloo ở Canada và Đại học Carnegie Mellon.
Khi gia nhập Google vào năm 2012, lần đầu tiên anh thực hiện một dự án quảng cáo máy học, sau đó chuyển sang Google Brain để nghiên cứu NLP.
Đồng tác giả thứ ba Chitwan Saharia tốt nghiệp Học viện Công nghệ Bombay, gia nhập Google vào năm 2019 và hiện là người đồng sáng lập của Ideogram.
Người đồng sáng lập thứ tư, Tiến sĩ Jonathan Ho** tốt nghiệp UC Berkeley, làm việc trong OpenAI được một năm và sau đó gia nhập Google.
Ngoài việc là người đóng góp cốt lõi cho bài báo Imagen, ông còn là tác giả nền tảng của mô hình khuếch tán khử nhiễu "Mô hình xác suất khuếch tán khử nhiễu". Pieter Abbeel, một trong những đồng tác giả của bài báo này, cũng là một nhà đầu tư vào Ideogram AI.
Ba người còn lại trong nhóm sáng lập, Shayaan Abdullah là kỹ sư máy học tại Twitter, đã rời đi vào tháng 4 năm nay và sau đó gia nhập Ideogram AI.
Jacob Lu là kỹ sư phần mềm từng làm việc tại Amazon và các công ty khác trước khi gia nhập Ideogram AI; Jenny Lei là thực tập sinh kỹ thuật phần mềm từng làm việc tại Google trước khi gia nhập Ideogram AI.
** vẫn cần tạo video **
Bốn nhà sáng tạo chung của Ideogram AI cũng đã hoàn thành công việc tiếp theo là tạo video Imagen Video trong Google.
Một năm trước, nó đã hiện thực hóa thế hệ video clip độ phân giải cao với độ phân giải 1280*768 và 24 khung hình mỗi giây.
Trên thực tế, vào tháng 3 năm nay, Qubit biết được từ thị trường đầu tư rằng mức định giá vòng thiên thần của họ đạt 100 triệu đô la Mỹ, ngày càng nhiều VC muốn đưa tiền nhưng không theo kịp, không thể đầu tư và nhiều tin tức hơn về hoạt động kinh doanh của họ. phương hướng:
** Không chỉ tạo hình ảnh mà còn tạo video trong tương lai. **
Bất kể Imagen hay Imagen Video, Google chưa bao giờ phát hành bản demo, API hoặc mã nguồn mở do các cân nhắc về bảo mật và đạo đức.
Kết quả nghiên cứu không thể chuyển đổi thành ứng dụng, đây là vấn đề phổ biến mà nhiều doanh nhân rời Google gặp phải trong những năm gần đây.
Ví dụ, trong số tám tác giả của Transformer thuộc phe mô hình lớn, Aidan Gomez, người sáng lập Cohere, từng nói rằng lý do rời đi là *"Tôi không nhìn thấy sức mạnh thực sự của mô hình lớn tại Google" *.
Lý do Ashish Vaswani và Niki Parmar rời Google để thành lập Adept AI và Essential AI cũng là "Google muốn sử dụng Transformer để tối ưu hóa các sản phẩm hiện có và chúng tôi muốn tạo ra các sản phẩm mới".
Sau đó, điều mà các nhà nghiên cứu lo sợ đã thực sự xảy ra:
Mặc dù Tháng 5 năm 2021 (sớm hơn thời hạn dữ liệu đào tạo ChatGPT) Google đã phát triển mô hình hội thoại LaMDA và chatbot, nhưng có quá nhiều lo ngại khi ra mắt sản phẩm và cuối cùng** 18 tháng sau, đã được mở cửa trực tiếp cho công chúng ở cửa bên cạnhChatGPT** và đã đánh cắp ánh đèn sân khấu.
……
Rút ra được những bài học này, Ideogram AI mới thành lập cũng đã áp dụng quan điểm cởi mở nhất có thể và là nơi đầu tiên thu hút người dùng chơi.
Hạn ngạch xét nghiệm 1.000 người ban đầu được công bố nhưng đã được lấp đầy ngay lập tức.
Có vẻ như một số hạn ngạch đã được mở ngày hôm nay và các qubit không gặp phải hàng đợi khi đăng ký vào buổi sáng.
Tóm lại là số lượng ghế vẫn có hạn, ai có nhu cầu thì nhanh tay nhé.
Địa chỉ dùng thử:
Liên kết tham khảo:
[1] /phóng
[2]
[3]
[4]
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Giữa cuộc hành trình gặp một đối thủ! Google AI vẽ 4 con bò lớn khởi nghiệp, dùng thử công nghệ Imagen miễn phí và giành được 120 triệu tài trợ thiên thần
Nguồn gốc: Qubit
MidJourney, trên ngai vàng của hội họa AI, cuối cùng cũng gặp phải một đối thủ mạnh.
Người thách thức mới nhất, Ideogram, không biết từ đâu ra đời. Lúc đầu, anh ta dựa vào việc đăng ký miễn phí để thu hút nhiều sự chú ý.
Tính năng bắt mắt nhất: Tạo văn bản chính xác trong ảnh, nhà khoa học Fan Linxi của NVIDIA đã trực tiếp sử dụng nó để vẽ một "Hết rồi, giữa cuộc hành trình".
4 thành viên đầu tiên của nhóm sáng lập đều là tác giả của Bài báo Imagen nghiên cứu biểu đồ Google Vincent, tạo thành nhóm nghiên cứu hàng đầu về các mô hình khuếch tán.
Ngoài ra còn có những nhân vật nổi tiếng trong số các nhà đầu tư cá nhân, chẳng hạn như thành viên sáng lập OpenAI Andrej Karpathy, chuyên gia học tăng cường Pieter Abbeel, người sáng lập Node.js Ryan Dahl, đồng sáng lập GitHub ** Tom Preston-Werner** và cộng sự.
Ngay cả sếp cũ của nhóm, cựu lãnh đạo bộ não Google Jeff Dean cũng tham gia.
AI học cách vẽ văn bản một cách chính xác
Việc để AI vẽ văn bản một cách chính xác luôn là một vấn đề. Mặc dù chức năng vẽ lại một phần mới của SDXL và Midjourney đã được cải thiện nhưng tỷ lệ phản hồi thành công từ cư dân mạng chưa cao lắm và cần phải thử lại nhiều lần.
Sau khi Ideogram giải quyết được điểm yếu này, nó đã được cư dân mạng trực tiếp chơi.
Không có vấn đề gì khi để văn bản xuất hiện trên bảng hiệu và đồng thời thích ứng với ánh sáng và bóng tối xung quanh.
kiểu chữ (sắp chữ in)
Nếu bạn sử dụng công nghệ tương tự như Imagen, thì việc sử dụng Google T5 thay vì OpenAI CLIP làm mô hình mã hóa ngôn ngữ có nghĩa là Ideogram hiểu rõ hơn về mô tả mối quan hệ không gian trong các từ gợi ý.
Nhóm nghiên cứu hàng đầu về mô hình khuếch tán
Nhóm sáng lập Ideogram AI gồm 7 người, trong đó có 4 người là đồng tác giả của Google Imagen.
Sau khi tốt nghiệp, anh ấy đã tham gia Google Brain trong 7 năm. Ngoài việc tạo ra các mô hình, anh ấy còn là thành viên ban đầu của nhóm Dịch máy thần kinh của Google và là đồng tác giả của khung học tập tương phản SimCLR tự giám sát của nhóm Hinton.
Khi gia nhập Google vào năm 2012, lần đầu tiên anh thực hiện một dự án quảng cáo máy học, sau đó chuyển sang Google Brain để nghiên cứu NLP.
Ngoài việc là người đóng góp cốt lõi cho bài báo Imagen, ông còn là tác giả nền tảng của mô hình khuếch tán khử nhiễu "Mô hình xác suất khuếch tán khử nhiễu". Pieter Abbeel, một trong những đồng tác giả của bài báo này, cũng là một nhà đầu tư vào Ideogram AI.
Jacob Lu là kỹ sư phần mềm từng làm việc tại Amazon và các công ty khác trước khi gia nhập Ideogram AI; Jenny Lei là thực tập sinh kỹ thuật phần mềm từng làm việc tại Google trước khi gia nhập Ideogram AI.
** vẫn cần tạo video **
Bốn nhà sáng tạo chung của Ideogram AI cũng đã hoàn thành công việc tiếp theo là tạo video Imagen Video trong Google.
** Không chỉ tạo hình ảnh mà còn tạo video trong tương lai. **
Bất kể Imagen hay Imagen Video, Google chưa bao giờ phát hành bản demo, API hoặc mã nguồn mở do các cân nhắc về bảo mật và đạo đức.
Kết quả nghiên cứu không thể chuyển đổi thành ứng dụng, đây là vấn đề phổ biến mà nhiều doanh nhân rời Google gặp phải trong những năm gần đây.
Ví dụ, trong số tám tác giả của Transformer thuộc phe mô hình lớn, Aidan Gomez, người sáng lập Cohere, từng nói rằng lý do rời đi là *"Tôi không nhìn thấy sức mạnh thực sự của mô hình lớn tại Google" *.
Lý do Ashish Vaswani và Niki Parmar rời Google để thành lập Adept AI và Essential AI cũng là "Google muốn sử dụng Transformer để tối ưu hóa các sản phẩm hiện có và chúng tôi muốn tạo ra các sản phẩm mới".
Sau đó, điều mà các nhà nghiên cứu lo sợ đã thực sự xảy ra:
Mặc dù Tháng 5 năm 2021 (sớm hơn thời hạn dữ liệu đào tạo ChatGPT) Google đã phát triển mô hình hội thoại LaMDA và chatbot, nhưng có quá nhiều lo ngại khi ra mắt sản phẩm và cuối cùng** 18 tháng sau, đã được mở cửa trực tiếp cho công chúng ở cửa bên cạnhChatGPT** và đã đánh cắp ánh đèn sân khấu.
……
Rút ra được những bài học này, Ideogram AI mới thành lập cũng đã áp dụng quan điểm cởi mở nhất có thể và là nơi đầu tiên thu hút người dùng chơi.
Hạn ngạch xét nghiệm 1.000 người ban đầu được công bố nhưng đã được lấp đầy ngay lập tức.
Tóm lại là số lượng ghế vẫn có hạn, ai có nhu cầu thì nhanh tay nhé.
Liên kết tham khảo: [1] /phóng [2] [3] [4]