AI nguồn mở mới có tên OpenVoice cung cấp tính năng sao chép giọng nói với tốc độ và độ chính xác chưa từng có.
OpenVoice được phát triển bởi các nhà nghiên cứu tại MIT, Đại học Thanh Hoa và công ty khởi nghiệp MyShell của Canada. OpenVoice chỉ sử dụng vài giây âm thanh để sao chép giọng nói và cho phép kiểm soát chi tiết âm sắc, cảm xúc, giọng điệu, nhịp điệu, v.v.
Mời Bạn xem hướng dẫn cách đăng ký nhanh tài khoản OpenVoice Tại đây
MyShell đã tiết lộ OpenVoice trong một bài đăng trong tuần này, liên kết đến một bài nghiên cứu đã được xem xét trước giải thích về công nghệ cũng như các trang demo trên MyShell và HuggingFace nơi người dùng có thể dùng thử.
Mô hình AI kép cho phép nhân bản giọng nói ngay lập tức
OpenVoice bao gồm hai mô hình AI hoạt động cùng nhau để chuyển đổi văn bản thành giọng nói và sao chép giọng nói.
Mô hình đầu tiên xử lý phong cách ngôn ngữ, giọng điệu, cảm xúc và các mẫu giọng nói khác. Nó được đào tạo trên 30.000 mẫu âm thanh với nhiều cảm xúc khác nhau từ những người nói tiếng Anh, tiếng Trung và tiếng Nhật. Mô hình “bộ chuyển đổi giai điệu” thứ hai đã học được từ hơn 300.000 mẫu bao gồm 20.000 giọng nói.
Bằng cách kết hợp các mô hình giọng nói phổ quát với mẫu giọng nói do người dùng cung cấp, OpenVoice có thể sao chép giọng nói với rất ít dữ liệu. Điều này giúp nó tạo ra giọng nói nhân bản nhanh hơn đáng kể so với mô hình nhân bản giọng nói khác.
Dự án khởi nghiệp Canada
OpenVoice đến từ công ty khởi nghiệp MyShell có trụ sở tại Calgary, được thành lập vào năm 2023. Với khoản tài trợ ban đầu là 5,6 triệu đô la và đã có hơn 400.000 người dùng, MyShell tự nhận mình là một nền tảng phi tập trung để tạo và khám phá các ứng dụng AI.
Ngoài tính năng tiên phong nhân bản giọng nói tức thì, MyShell còn cung cấp các tính cách chatbot dựa trên văn bản gốc, trình tạo meme, game nhập vai văn bản do người dùng tạo, v.v. Một số nội dung bị khóa và chỉ được mở khi người dùng chi trả một khoản phí. Công ty cũng hỗ trợ và tính phí cho những người có nhu cầu tạo bot quảng cáo, bot của riêng họ trên nền tảng của mình.
Bằng cách cung cấp nguồn mở cho khả năng sao chép giọng nói của mình thông qua HuggingFace , đồng thời kiếm tiền từ hệ sinh thái ứng dụng rộng lớn hơn của mình, MyShell có thể tăng số lượng người dùng trên cả hai nền tảng, đồng thời thúc đẩy mô hình phát triển AI mở, đặc biệt là OpenVoice – ứng dụng nhân bản giọng nói với tốc độ nhanh nhất hiện nay.
Trung Hòa.