26/2/2024 (TinAI.vn) – Hôm nay, Google tiếp tục công bố một mô hình được đào tạo từ các video trên Internet có thể tạo ra vô số thế giới ảo 2D có thể chơi được (điều khiển được bằng hành động) từ hình ảnh tổng hợp, ảnh chụp và thậm chí cả bản phác thảo với tên gọi là Genie.
Vài năm gần đây, chúng ta đã chứng kiến sự xuất hiện của AI sáng tạo, với các mô hình có khả năng tạo ra nội dung mới và sáng tạo thông qua ngôn ngữ, hình ảnh và thậm chí cả video. Hôm nay, Google đã giới thiệu một mô hình AI mới, môi trường tương tác tổng quát (Genie), theo đó, các môi trường tương tác, có thể chơi được có thể được tạo từ một dấu nhắc hình ảnh duy nhất.
Genie có thể được tạo bằng lời nhắc với những hình ảnh mà nó chưa từng thấy trước đây, chẳng hạn như những bức ảnh hoặc bản phác thảo trong thế giới thực, cho phép mọi người tương tác với thế giới ảo tưởng tượng của họ – về cơ bản hoạt động như một mô hình thế giới ảo. Điều này có thể thực hiện được mặc dù đã được đào tạo mà không có bất kỳ nhãn hành động nào. Thay vào đó, Genie được đào tạo từ một tập dữ liệu lớn gồm các video công khai có sẵn trên Internet. Google cho biết họ tập trung vào video về trò chơi nền tảng 2D và robot nhưng phương pháp này mang tính chung chung và sẽ hoạt động với mọi loại miền cũng như có thể mở rộng cho các bộ dữ liệu Internet lớn hơn.
Điều khiến Genie trở nên độc đáo là khả năng học các điều khiển chi tiết chỉ từ video trên Internet. Đây là một thách thức vì các video trên Internet thường không có nhãn liên quan đến hành động nào đang được thực hiện hoặc thậm chí phần nào của hình ảnh cần được kiểm soát. Đáng chú ý, Genie không chỉ tìm hiểu những phần nào của quan sát thường có thể kiểm soát được mà còn suy ra các hành động tiềm ẩn đa dạng nhất quán trên các môi trường được tạo. Ở đây hãy lưu ý rằng các hành động tiềm ẩn giống nhau sẽ tạo ra các hành vi tương tự trên các hình ảnh nhắc nhở khác nhau như thế nào.
Hỗ trợ thế hệ người sáng tạo mới
Trưởng nhóm Google DeepMind cho Genie, Tim Rocktäschel, đã viết trên X rằng nhóm tập trung vào quy mô, sử dụng tập dữ liệu gồm hơn 200.000 giờ video từ các nền tảng 2D.
Nó được đào tạo không có sự giám sát và sử dụng các video không được gắn nhãn. Điều này cho phép nó học được nhiều loại chuyển động, điều khiển và hành động của nhân vật và thực hiện điều đó một cách nhất quán. Kết quả là, “mô hình của chúng tôi có thể chuyển đổi bất kỳ hình ảnh nào thành thế giới 2D có thể chơi được”, Rocktäschel giải thích.
Ý nghĩa thực sự của điều này là gì?
Có rất nhiều công cụ trên thị trường có thể lấy mô hình trang web hoặc ứng dụng của nhà thiết kế đồ họa và biến nó thành code.
Nó không phải lúc nào cũng là code tốt nhất nhưng nó tạo ra một nguyên mẫu chức năng có thể sử dụng được. Các công cụ AI cũng tồn tại để tạo một trang web từ lời nhắc văn bản.
Với Genie, về cơ bản, bạn có thể tạo cho nó một bản phác thảo trên một tờ giấy, một tác phẩm nghệ thuật kỹ thuật số được chế tạo hoàn hảo hoặc thậm chí là một mô tả do AI tạo ra về thế giới 2D và Genie sẽ làm phần còn lại.
Điều gì xảy ra tiếp theo với Genie?
Genie hiện mới là phiên bản Beta và chưa có ngày phát hành cụ thể, đây là một dự án nghiên cứu nên không rõ liệu nó có trở thành sản phẩm thực sự hay không. Có khả năng một ngày nào đó bạn sẽ có thể nhấc một trong những chiếc điện thoại Android tốt nhất lên và yêu cầu Trợ lý tạo cho bạn một trò chơi về việc né tránh ma cà rồng — nhưng không phải trong vài năm.
Xem chi tiết về dự án tại đây
Điều quan trọng hơn là công nghệ cơ bản và các phương pháp tiếp cận mới để tạo nội dung được phát triển trong quá trình tạo ra nó, bao gồm cả việc học tập không nhãn mác dẫn đến thế giới mở.
Rocktäschel đã gọi Sora trên X, cụ thể là ý tưởng đó là “mô hình thế giới”. Anh ấy nói rằng mặc dù nó rất ấn tượng và có hình ảnh ấn tượng nhưng “một mô hình thế giới cần có ‘hành động'.” Nói thêm rằng “Genie là một mô hình thế giới có thể điều khiển bằng hành động nhưng được đào tạo hoàn toàn không có sự giám sát từ video.”
Bước đột phá lớn khác đến với Genie là sự hiểu biết sâu sắc hơn về vật lý trong thế giới thực, có thể được sử dụng trong việc huấn luyện robot để điều hướng môi trường hiệu quả hơn hoặc hoàn thành các nhiệm vụ không nằm trong quá trình huấn luyện của chúng.
Genie giới thiệu kỷ nguyên có thể tạo ra toàn bộ thế giới tương tác từ hình ảnh hoặc văn bản. Và nó sẽ là chất xúc tác để đào tạo các tác nhân AI tổng quát trong tương lai – Google khẳng định.
Trung Hòa