16/2/2024 (TinAI.vn) – OpenAI đang huấn luyện AI hiểu và mô phỏng thế giới vật chất đang chuyển động như thế nào thông qua công cụ mới có tên gọi Sora. Đây là mô hình chuyển văn bản thành video có độ dài tối đa một phút trong khi vẫn duy trì chất lượng hình ảnh và tuân thủ lời nhắc của người dùng.
Lời nhắc: Một người phụ nữ sành điệu bước xuống một con phố ở Tokyo tràn ngập ánh đèn neon rực rỡ ấm áp và biển hiệu thành phố hoạt hình. Cô ấy mặc áo khoác da màu đen, váy dài màu đỏ, đi bốt đen và mang theo một chiếc ví màu đen. Cô đeo kính râm và tô son đỏ. Cô bước đi tự tin và thản nhiên. Đường phố ẩm ướt và phản chiếu, tạo ra hiệu ứng phản chiếu của ánh đèn nhiều màu sắc. Nhiều người đi bộ đi lại.
Sora hiện đã cấp quyền truy cập cho một số nghệ sĩ, nhà thiết kế và nhà làm phim để giúp OpenAI nhận phản hồi về cách cải tiến mô hình sao cho hữu ích nhất cho người dùng sáng tạo.
OpenAI cũng đang sớm chia sẻ tiến trình nghiên cứu của mình để bắt đầu hợp tác và nhận phản hồi từ những người dùng bên ngoài OpenAI, đồng thời giúp công chúng hiểu được những khả năng của AI sắp ra mắt này.
Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như các chi tiết chính xác về chủ đề và bối cảnh. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực.
Lời nhắc: Máy ảnh theo sau một chiếc SUV cổ điển màu trắng với giá nóc màu đen khi nó tăng tốc trên con đường đất dốc được bao quanh bởi những cây thông trên một sườn núi dốc, bụi bay lên từ lốp xe, ánh nắng chiếu vào chiếc SUV khi nó tăng tốc con đường đất, tỏa ánh sáng ấm áp khắp khung cảnh. Con đường đất uốn lượn nhẹ nhàng về phía xa, không có ô tô, phương tiện nào khác trong tầm mắt. Hai bên đường là cây gỗ đỏ, rải rác khắp nơi là những mảng cây xanh. Chiếc xe được nhìn thấy từ phía sau theo đường cong một cách dễ dàng, khiến nó có vẻ như đang lái xe gồ ghề qua địa hình hiểm trở. Con đường đất được bao quanh bởi những ngọn đồi và núi dốc, với bầu trời trong xanh phía trên với những đám mây mỏng manh.
Mô hình này có sự hiểu biết sâu sắc về ngôn ngữ, cho phép diễn giải chính xác các lời nhắc và tạo ra các nhân vật hấp dẫn thể hiện cảm xúc sôi động. Sora cũng có thể cho ra nhiều cảnh quay trong một video được tạo duy nhất để duy trì chính xác các ký tự và phong cách hình ảnh.
Mô hình hiện tại có điểm yếu. Nó có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp cụ thể về nguyên nhân và kết quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó, chiếc bánh quy có thể không có vết cắn.
Mô hình cũng có thể nhầm lẫn các chi tiết không gian của lời nhắc, chẳng hạn như trộn lẫn trái và phải và có thể gặp khó khăn với các mô tả chính xác về các sự kiện diễn ra theo thời gian, chẳng hạn như đi theo một quỹ đạo camera cụ thể.
Sora phát triển theo Kỹ thuật nào?
Sora là một mô hình khuếch tán, có khả năng tạo toàn bộ video cùng một lúc hoặc mở rộng các video đã tạo để làm chúng dài hơn. Bằng cách cung cấp cho mô hình khả năng dự đoán nhiều khung hình cùng một lúc, OpenAI đã giải quyết được một vấn đề đầy thách thức là đảm bảo đối tượng vẫn giữ nguyên ngay cả khi nó tạm thời nằm ngoài tầm nhìn.
Tương tự như các mô hình GPT, Sora sử dụng kiến trúc transformer, mang lại hiệu suất mở rộng vượt trội.
Sora trình diễn video và hình ảnh dưới dạng tập hợp các đơn vị dữ liệu nhỏ hơn được gọi là bản vá, mỗi bản vá giống như một mã thông báo trong GPT. Bằng cách thống nhất cách biểu diễn dữ liệu, Sora có thể huấn luyện các kiến trúc transformer khuếch tán trên phạm vi dữ liệu hình ảnh rộng hơn trước đây, trải rộng trên các khoảng thời lượng, độ phân giải và tỷ lệ khung hình khác nhau.
Sora xây dựng dựa trên nghiên cứu trước đây về mô hình DALL·E và GPT. Nó sử dụng kỹ thuật ghi chú lại từ DALL·E 3, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan. Do đó, mô hình có thể làm theo hướng dẫn bằng văn bản của người dùng cung cấp giúp cho video được tạo ra một cách trung thực hơn.
Ngoài khả năng tạo video bằng văn bản, mô hình còn có thể chụp ảnh tĩnh hiện có và tạo video từ đó, tạo hoạt ảnh cho nội dung của hình ảnh một cách chính xác và chú ý đến từng chi tiết nhỏ. Mô hình này cũng có thể lấy một video hiện có và mở rộng nó hoặc bổ sung vào các khung hình còn thiếu.
Bạn có thể tìm hiểu thêm mô tả kỹ thuật về Sora tại đây
Sora đóng vai trò là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực, khả năng mà OpenAI tin rằng sẽ là một cột mốc quan trọng để đạt được mô hình AGI sớm trong tương lai.
Phương Uyên