28/2/2024 (TinAI.vn) – Hôm qua, tập đoàn Alibaba đã ra mắt công cụ EMO chuyển ảnh thành video với độ chân thực cao bằng AI. Với công nghệ này, người dùng chỉ cần nhập một hình ảnh duy nhất và âm thanh lời nói hay giọng hát, mô hình của Alibaba sẽ tạo ra video có giọng hát với nét mặt có các biểu cảm chân thực và nhiều tư thế đầu khác nhau và có thể tạo video với độ dài bất kỳ tùy thuộc dữ liệu âm thanh đầu vào.
Tổng quan về phương pháp Alibaba đề xuất được thực hiện và mô tả như hình trên. Quá trình chủ yếu được cấu thành qua hai giai đoạn. Trong giai đoạn đầu, được gọi là Mã hóa khung, ReferenceNet được triển khai để trích xuất các tính năng từ khung hình ảnh và chuyển động tham chiếu. Sau đó, trong giai đoạn Quá trình khuếch tán, bộ mã hóa âm thanh được huấn luyện sẽ xử lý việc nhúng âm thanh. Mặt nạ vùng khuôn mặt được tích hợp với kỹ thuật nhiễu đa khung để điều khiển việc tạo hình ảnh khuôn mặt. Tiếp theo là việc sử dụng Mạng đường trục để tạo điều kiện thuận lợi cho hoạt động khử nhiễu. Các cơ chế này rất cần thiết để bảo tồn đặc điểm nhận dạng của nhân vật và điều chỉnh chuyển động của khuân mặt. Ngoài ra, cón có Mô-đun thời gian dùng để điều khiển kích thước thời gian và điều chỉnh tốc độ chuyển động cho video được tạo ra.
Chúng ta cùng tham khảo một số Video do công nghệ này tạo ra:
Nhân vật: AI Girl tạo bởi ChilloutMix
Nguồn giọng: David Tao – Melody. Được bao phủ bởi NINGNING
Nhân vật: Cô gái AI được tạo ra bởi WildCardX-XL-Fusion
Nguồn giọng: JENNIE – SOLO. Bản cover của Aiana (Hàn Quốc)
Nói chuyện với các nhân vật khác nhau
Cách tiếp cận công nghệ này không chỉ giới hạn ở việc xử lý âm thanh đầu vào từ ca hát mà còn có thể điều chỉnh âm thanh giọng nói bằng nhiều ngôn ngữ khác nhau. Ngoài ra, phương pháp của EMO có khả năng tạo hoạt ảnh cho các bức chân dung, tranh vẽ từ các thời đại đã qua cũng như cả mô hình 3D và nội dung do AI tạo ra, làm cho chúng chuyển động sống động như thật.
Nhân vật: Audrey Kathleen Hepburn-Ruston
Nguồn giọng: Ed Sheeran – Perfect, Samantha Harvey
Nhân vật: AI Chloe: Detroit Become Human
Giọng Nguồn: Clip Phỏng vấn
Nhân vật: SongWen Zhang – QiQiang Gao – 《The Knockout》
Nguồn giọng hát: Các khóa học trực tuyến về thi pháp luật
Chi tiết thông tin nghiên cứu về dự án EMO
Trung Hòa