Công nghệ tạo video đa mô hình AI đạt được bước đột phá lớn
Gần đây, sự phát triển đáng chú ý nhất trong lĩnh vực AI chính là những tiến bộ đột phá trong công nghệ tạo video đa mô hình. Công nghệ này đã phát triển từ việc chỉ đơn thuần tạo video từ văn bản, trở thành công nghệ tạo dựng toàn bộ chuỗi tích hợp văn bản, hình ảnh và âm thanh.
Một số trường hợp đột phá công nghệ đáng chú ý bao gồm:
Một khung EX-4D mã nguồn mở của một công ty công nghệ có thể biến video từ một góc nhìn duy nhất thành nội dung 4D với góc nhìn tự do, tỷ lệ chấp nhận của người dùng đạt 70,7%. Công nghệ này đã làm cho việc tạo ra hiệu ứng xem từ mọi góc độ từ video thông thường trở nên khả thi, đơn giản hóa rất nhiều công việc mà trước đây cần phải có đội ngũ mô hình 3D chuyên nghiệp mới có thể hoàn thành.
Một nền tảng AI đã ra mắt tính năng "Vẽ tưởng tượng", tuyên bố có thể tạo ra video "chất lượng điện ảnh" dài 10 giây từ một bức ảnh. Hiệu quả thực tế của tính năng này vẫn cần được xác minh thêm.
Công nghệ Veo do một tổ chức nghiên cứu AI nổi tiếng phát triển đã实现 việc tạo ra video 4K và âm thanh môi trường đồng bộ. Công nghệ này đã vượt qua thách thức đồng bộ âm thanh và hình ảnh trong các cảnh phức tạp, như sự tương ứng chính xác giữa hành động đi bộ trong hình ảnh và âm thanh bước chân.
Công nghệ ContentV được ra mắt bởi một nền tảng video ngắn, sở hữu 80 tỷ tham số, có khả năng tạo ra video 1080p trong vòng 2.3 giây, với chi phí là 3.67 nhân dân tệ/5 giây. Mặc dù việc kiểm soát chi phí khá tốt, nhưng vẫn còn không gian để cải thiện chất lượng tạo ra trong các cảnh phức tạp.
Những đột phá công nghệ này có ý nghĩa quan trọng trong các khía cạnh như chất lượng video, chi phí sản xuất và các tình huống ứng dụng.
Về giá trị kỹ thuật, độ phức tạp của việc生成 đa phương thức video tăng theo cấp số nhân. Nó cần xử lý việc生成 hình ảnh đơn (khoảng 10^6 điểm pixel), đảm bảo tính liên tục theo thời gian (ít nhất 100 khung hình), đồng bộ âm thanh (10^4 điểm mẫu mỗi giây) và tính nhất quán trong không gian 3D. Hiện nay, nhiệm vụ phức tạp này có thể được thực hiện thông qua việc phân tách theo mô-đun và sự cộng tác của các mô hình lớn, giúp tăng cường đáng kể hiệu suất.
Về kiểm soát chi phí, thông qua việc tối ưu hóa kiến trúc suy diễn, bao gồm việc áp dụng chiến lược tạo ra phân lớp, cơ chế tái sử dụng bộ nhớ đệm và phân bổ tài nguyên động, đã giảm đáng kể chi phí sản xuất.
Về ảnh hưởng ứng dụng, công nghệ AI đang thay đổi cấu trúc sản xuất video truyền thống. Quy trình sản xuất video vốn cần rất nhiều thiết bị, không gian, nhân lực và thời gian, giờ đây có thể được hoàn thành trong thời gian ngắn nhờ AI, thậm chí đạt được những góc nhìn và hiệu ứng mà quay phim truyền thống khó có thể thực hiện. Cuộc cách mạng này có thể tái cấu trúc toàn bộ hệ sinh thái kinh tế sáng tạo.
Những tiến bộ của công nghệ AI Web2 đã có ảnh hưởng sâu rộng đến lĩnh vực AI Web3:
Cấu trúc nhu cầu sức mạnh tính toán đã thay đổi. Việc tạo ra video đa mô hình cần một sự kết hợp sức mạnh tính toán đa dạng, điều này đã tạo ra nhu cầu mới cho sức mạnh tính toán nhàn rỗi phân tán cũng như các loại mô hình tinh chỉnh phân tán, thuật toán và nền tảng suy diễn.
Nhu cầu đánh dấu dữ liệu được tăng cường. Việc tạo ra video chuyên nghiệp đòi hỏi mô tả cảnh chính xác, hình ảnh tham khảo, phong cách âm thanh, đường đi của camera và điều kiện ánh sáng cùng các đánh dấu dữ liệu chuyên nghiệp khác. Cơ chế khuyến khích của Web3 có thể khuyến khích các nhiếp ảnh gia, kỹ sư âm thanh và nghệ sĩ 3D cung cấp tài liệu dữ liệu chất lượng cao.
Nhu cầu về nền tảng phi tập trung gia tăng. Công nghệ AI đang dần chuyển từ việc phân bổ tài nguyên quy mô lớn tập trung sang sự hợp tác mô-đun, điều này chính là nhu cầu mới đối với nền tảng phi tập trung. Trong tương lai, sức mạnh tính toán, dữ liệu, mô hình và cơ chế khuyến khích có thể tạo ra vòng luẩn quẩn tích cực tự củng cố, thúc đẩy sự hòa nhập của các cảnh Web3 AI và Web2 AI.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
15 thích
Phần thưởng
15
6
Đăng lại
Chia sẻ
Bình luận
0/400
DeFiChef
· 08-15 18:54
70.7% cũng quá xuất sắc 8...
Xem bản gốcTrả lời0
MevTears
· 08-15 05:54
Thật là xấu hổ, ngay cả web2 cũng chơi rõ ràng.
Xem bản gốcTrả lời0
UncleWhale
· 08-15 05:53
Hiểu rồi, lại phải đốt card đồ họa nữa.
Xem bản gốcTrả lời0
DegenDreamer
· 08-15 05:42
Nghiên cứu cái gì, đã làm short all in rồi.
Xem bản gốcTrả lời0
ConsensusBot
· 08-15 05:31
Lại đang thổi phồng kỹ thuật à
Xem bản gốcTrả lời0
GetRichLeek
· 08-15 05:30
Một cơ hội mới nữa, đang nằm phục kích… không muốn trở thành đồ ngốc nữa!
Công nghệ tạo video đa mô thức AI đột phá: Cơ hội mới trong Web3 xuất hiện
Công nghệ tạo video đa mô hình AI đạt được bước đột phá lớn
Gần đây, sự phát triển đáng chú ý nhất trong lĩnh vực AI chính là những tiến bộ đột phá trong công nghệ tạo video đa mô hình. Công nghệ này đã phát triển từ việc chỉ đơn thuần tạo video từ văn bản, trở thành công nghệ tạo dựng toàn bộ chuỗi tích hợp văn bản, hình ảnh và âm thanh.
Một số trường hợp đột phá công nghệ đáng chú ý bao gồm:
Một khung EX-4D mã nguồn mở của một công ty công nghệ có thể biến video từ một góc nhìn duy nhất thành nội dung 4D với góc nhìn tự do, tỷ lệ chấp nhận của người dùng đạt 70,7%. Công nghệ này đã làm cho việc tạo ra hiệu ứng xem từ mọi góc độ từ video thông thường trở nên khả thi, đơn giản hóa rất nhiều công việc mà trước đây cần phải có đội ngũ mô hình 3D chuyên nghiệp mới có thể hoàn thành.
Một nền tảng AI đã ra mắt tính năng "Vẽ tưởng tượng", tuyên bố có thể tạo ra video "chất lượng điện ảnh" dài 10 giây từ một bức ảnh. Hiệu quả thực tế của tính năng này vẫn cần được xác minh thêm.
Công nghệ Veo do một tổ chức nghiên cứu AI nổi tiếng phát triển đã实现 việc tạo ra video 4K và âm thanh môi trường đồng bộ. Công nghệ này đã vượt qua thách thức đồng bộ âm thanh và hình ảnh trong các cảnh phức tạp, như sự tương ứng chính xác giữa hành động đi bộ trong hình ảnh và âm thanh bước chân.
Công nghệ ContentV được ra mắt bởi một nền tảng video ngắn, sở hữu 80 tỷ tham số, có khả năng tạo ra video 1080p trong vòng 2.3 giây, với chi phí là 3.67 nhân dân tệ/5 giây. Mặc dù việc kiểm soát chi phí khá tốt, nhưng vẫn còn không gian để cải thiện chất lượng tạo ra trong các cảnh phức tạp.
Những đột phá công nghệ này có ý nghĩa quan trọng trong các khía cạnh như chất lượng video, chi phí sản xuất và các tình huống ứng dụng.
Về giá trị kỹ thuật, độ phức tạp của việc生成 đa phương thức video tăng theo cấp số nhân. Nó cần xử lý việc生成 hình ảnh đơn (khoảng 10^6 điểm pixel), đảm bảo tính liên tục theo thời gian (ít nhất 100 khung hình), đồng bộ âm thanh (10^4 điểm mẫu mỗi giây) và tính nhất quán trong không gian 3D. Hiện nay, nhiệm vụ phức tạp này có thể được thực hiện thông qua việc phân tách theo mô-đun và sự cộng tác của các mô hình lớn, giúp tăng cường đáng kể hiệu suất.
Về kiểm soát chi phí, thông qua việc tối ưu hóa kiến trúc suy diễn, bao gồm việc áp dụng chiến lược tạo ra phân lớp, cơ chế tái sử dụng bộ nhớ đệm và phân bổ tài nguyên động, đã giảm đáng kể chi phí sản xuất.
Về ảnh hưởng ứng dụng, công nghệ AI đang thay đổi cấu trúc sản xuất video truyền thống. Quy trình sản xuất video vốn cần rất nhiều thiết bị, không gian, nhân lực và thời gian, giờ đây có thể được hoàn thành trong thời gian ngắn nhờ AI, thậm chí đạt được những góc nhìn và hiệu ứng mà quay phim truyền thống khó có thể thực hiện. Cuộc cách mạng này có thể tái cấu trúc toàn bộ hệ sinh thái kinh tế sáng tạo.
Những tiến bộ của công nghệ AI Web2 đã có ảnh hưởng sâu rộng đến lĩnh vực AI Web3:
Cấu trúc nhu cầu sức mạnh tính toán đã thay đổi. Việc tạo ra video đa mô hình cần một sự kết hợp sức mạnh tính toán đa dạng, điều này đã tạo ra nhu cầu mới cho sức mạnh tính toán nhàn rỗi phân tán cũng như các loại mô hình tinh chỉnh phân tán, thuật toán và nền tảng suy diễn.
Nhu cầu đánh dấu dữ liệu được tăng cường. Việc tạo ra video chuyên nghiệp đòi hỏi mô tả cảnh chính xác, hình ảnh tham khảo, phong cách âm thanh, đường đi của camera và điều kiện ánh sáng cùng các đánh dấu dữ liệu chuyên nghiệp khác. Cơ chế khuyến khích của Web3 có thể khuyến khích các nhiếp ảnh gia, kỹ sư âm thanh và nghệ sĩ 3D cung cấp tài liệu dữ liệu chất lượng cao.
Nhu cầu về nền tảng phi tập trung gia tăng. Công nghệ AI đang dần chuyển từ việc phân bổ tài nguyên quy mô lớn tập trung sang sự hợp tác mô-đun, điều này chính là nhu cầu mới đối với nền tảng phi tập trung. Trong tương lai, sức mạnh tính toán, dữ liệu, mô hình và cơ chế khuyến khích có thể tạo ra vòng luẩn quẩn tích cực tự củng cố, thúc đẩy sự hòa nhập của các cảnh Web3 AI và Web2 AI.