30/3/20204 (TinAI.vn) – Hôm qua ngày 29/3, OpenAI công bố công cụ Voice Engine nhân bản giọng nói bằng phương pháp sử dụng kiểu nhập văn bản và một mẫu âm thanh 15 giây để tạo ra giọng nói có âm thanh tự nhiên gần giống với người nói ban đầu. Điều đáng chú ý là một mô hình nhỏ với một mẫu 15 giây duy nhất có thể tạo ra giọng nói giàu cảm xúc và chân thực.
Lần đầu tiên OpenAI phát triển Voice Engine là vào cuối năm 2022 và đã sử dụng công cụ này để hỗ trợ các giọng nói đặt sẵn có trong API của họ để chuyển văn bản thành giọng nói cũng như ChatGPT Voice và Read Aloud . Đồng thời,OpenAI đang thực hiện một cách tiếp cận thận trọng và sáng suốt để phát hành rộng rãi hơn do có khả năng lạm dụng giọng nói tổng hợp trong các tình huống sử dụng công nghệ để lừa đảo. OpenAI mong muốn có thể bắt đầu một cuộc đối thoại về việc triển khai tiếng nói tổng hợp một cách có trách nhiệm và cách xã hội có thể thích ứng với những khả năng mới này. Và dựa trên những thảo luận này và kết quả của những cuộc thử nghiệm quy mô nhỏ OpenAI sẽ cân nhắc đưa ra quyết định có nên triển khai công nghệ này trên quy mô lớn hay không và bằng cách nào?
Những ứng dụng ban đầu của Voice Engine
Để hiểu rõ hơn về những ứng dụng tiềm năng của công nghệ này, cuối năm ngoái OpenAI đã bắt đầu thử nghiệm riêng nó với một nhóm nhỏ đối tác đáng tin cậy. Kết quả rất ấn tượng với những ứng dụng mà nhóm này đã phát triển. Những hoạt động triển khai quy mô nhỏ này đang giúp định hình cách tiếp cận, các biện pháp bảo vệ của OpenAI và suy nghĩ về cách sử dụng Voice Engine cho mục đích tốt trong nhiều ngành khác nhau. Một vài ví dụ ban đầu bao gồm:
1) Cung cấp hỗ trợ đọc: cho những người chưa biết đọc và trẻ em thông qua giọng nói tự nhiên, giàu cảm xúc, đại diện cho nhiều loại người nói hơn những gì có thể làm được với giọng nói cài sẵn. Age of Learning , một công ty công nghệ giáo dục hướng tới sự thành công trong học tập của trẻ em, đã sử dụng công nghệ này để tạo nội dung lồng tiếng có kịch bản sẵn. Họ cũng sử dụng Voice Engine và GPT-4 để tạo phản hồi được cá nhân hóa theo thời gian thực nhằm tương tác với sinh viên. Với công nghệ này, Age of Learning đã có thể tạo ra nhiều nội dung hơn cho nhiều đối tượng hơn.
– Âm thanh gốc:
– Âm thanh được tạo nhân bản
+ Đọc 1 nội dung:
+ Đọc một nội dung về lĩnh vực sinh học:
2) Dịch nội dung: như video và podcast để người sáng tạo và doanh nghiệp có thể tiếp cận nhiều người hơn trên khắp thế giới một cách trôi chảy và bằng chính giọng nói của họ. Một trong những ứng dụng đầu tiên áp dụng điều này là HeyGen , một nền tảng kể chuyện bằng hình ảnh AI hoạt động với khách hàng doanh nghiệp của họ để tạo hình đại diện tùy chỉnh, giống con người cho nhiều nội dung, từ tiếp thị sản phẩm đến video demo bán hàng. Họ sử dụng Voice Engine để dịch video nên họ có thể dịch giọng nói của người nói sang nhiều ngôn ngữ và tiếp cận khán giả toàn cầu. Khi được sử dụng để dịch, Voice Engine giữ nguyên giọng bản địa của người nói gốc: ví dụ: tạo tiếng Anh bằng mẫu âm thanh từ người nói tiếng Pháp sẽ tạo ra giọng nói có giọng Pháp.
– Âm thanh gốc:
– Âm thanh nhân bản
+ Tiếng Pháp:
+ Tiếng Nhật:
3) Tiếp cận cộng đồng toàn cầu: bằng cách cải thiện việc cung cấp dịch vụ thiết yếu trong môi trường từ xa. Dimagi đang xây dựng các công cụ giúp nhân viên y tế cộng đồng cung cấp nhiều dịch vụ thiết yếu, chẳng hạn như tư vấn cho các bà mẹ đang cho con bú. Để giúp những bà mẹ này phát triển kỹ năng của mình, Dimagi sử dụng Voice Engine và GPT-4 để đưa ra phản hồi tương tác bằng ngôn ngữ chính của mỗi bà mẹ, bao gồm tiếng Swahili hoặc các ngôn ngữ thân mật hơn như Sheng, một ngôn ngữ pha trộn mã phổ biến ở Kenya.
– Âm thanh gốc, tiếng Swahili
+ Âm thanh nhân bản, nói về nội dung dinh dưỡng:
+ Âm thanh nhân bản, nói về nội dung cho con bú:
4. Hỗ trợ những người không thể nói được: chẳng hạn như các ứng dụng trị liệu cho những người mắc các bệnh ảnh hưởng đến khả năng nói và nâng cao trình độ học vấn cho những người có nhu cầu học tập. Livox , một ứng dụng giao tiếp thay thế AI, hỗ trợ các thiết bị giao tiếp thay thế và tăng cường (AAC) cho phép người khuyết tật giao tiếp. Bằng cách sử dụng Voice Engine, họ có thể cung cấp cho mọi người những giọng nói phi ngôn ngữ độc đáo và không phải của robot trên nhiều ngôn ngữ. Người dùng của họ có thể chọn lời nói thể hiện tốt nhất cho họ và đối với người dùng đa ngôn ngữ, hãy duy trì giọng nói nhất quán trên từng ngôn ngữ nói.
– Âm thanh gốc:
– Âm thanh nhân bản, tiếng Anh:
5) Giúp bệnh nhân lấy lại giọng nói: dành cho những người mắc phải tình trạng giọng nói đột ngột bị thay đổi hoặc bị thoái hóa. Viện Khoa học thần kinh Norman Prince tại Lifespan, một hệ thống y tế phi lợi nhuận đóng vai trò là đơn vị giảng dạy chính của trường y thuộc Đại học Brown, đang khám phá việc sử dụng AI trong bối cảnh lâm sàng. Họ đang thử nghiệm một chương trình cung cấp Voice Engine cho những cá nhân mắc chứng suy giảm khả năng nói do nguyên nhân ung thư hoặc thần kinh. Vì Voice Engine yêu cầu một mẫu âm thanh ngắn như vậy nên các bác sĩ Fatima Mirza, Rohaid Ali và Konstantina Svokos đã có thể khôi phục giọng nói của một bệnh nhân trẻ bị mất khả năng nói trôi chảy do khối u não mạch máu, sử dụng âm thanh từ video được quay trước đó.
– Giọng nói hiện tại
– Giọng nói gốc – ban đầu
– Giọng nói được nhân bản
OpenAI cam kết xây dựng Voice Engine một cách an toàn
OpenAI nhận thấy rằng việc nhân bản giọng nói của mọi người có những rủi ro nghiêm trọng, điều này đặc biệt được quan tâm hàng đầu trong năm bầu cử – năm 2024 với nhiều cuộc bầu cử sẽ diễn ra ở nhiều quốc gia, trong đó có Mỹ. OpenAI cũng đang hợp tác với các đối tác của Hoa Kỳ và quốc tế từ khắp các cơ quan chính phủ, truyền thông, giải trí, giáo dục, xã hội dân sự và hơn thế nữa để đảm bảo rằng họ tiếp thu được phản hồi của công chúng khi xây dựng và phát triển Voice Engine.
Các đối tác thử nghiệm Voice Engine của OpenAI đã đồng ý với chính sách sử dụng, trong đó nghiêm cấm việc mạo danh cá nhân hoặc tổ chức khác mà không có sự đồng ý hoặc quyền hợp pháp. Ngoài ra, các điều khoản của OpenAI với các đối tác này yêu cầu rõ ràng sự đồng ý và đầy đủ thông tin từ người phát ngôn ban đầu và OpenAI không cho phép nhà phát triển xây dựng các cách để người dùng cá nhân tạo ra tiếng nói của riêng họ. Các đối tác cũng phải tiết lộ rõ ràng với khán giả rằng giọng nói họ đang nghe là do AI tạo ra. Cuối cùng, OpenAI đã triển khai một loạt biện pháp an toàn, bao gồm hình mờ để theo dõi nguồn gốc của mọi âm thanh do Voice Engine tạo ra cũng như chủ động giám sát cách sử dụng âm thanh đó.
OpenAI tin rằng bất kỳ hoạt động triển khai rộng rãi nào về công nghệ giọng nói tổng hợp đều phải đi kèm với trải nghiệm xác thực giọng nói để xác minh rằng người nói ban đầu đang cố ý thêm giọng nói của họ vào dịch vụ và danh sách giọng nói để phát hiện và ngăn chặn việc tạo ra các giọng nói quá giống nhau gây ảnh hưởng đến những nhân vật nổi bật.
Tương lai của Voice Engine
Voice Engine là sự tiếp nối cam kết của OpenAI nhằm hiểu rõ giới hạn kỹ thuật và chia sẻ cởi mở những gì có thể thực hiện được bởi AI. Để phù hợp với cách tiếp cận của OpenAI đối với vấn đề an toàn AI và các cam kết tự nguyện, công ty đang triển khai chế độ dùng thử trước nhưng không phát hành rộng rãi Voice Engine vào thời điểm này. OpenAI hi vọng bản xem trước này của Voice Engine vừa nhấn mạnh tiềm năng của nó vừa thúc đẩy nhu cầu tăng cường khả năng phục hồi xã hội trước những thách thức do các mô hình sáng tạo thuyết phục hơn bao giờ hết mang lại. Cụ thể, OpenAI khuyến khích các bước như:
- Loại bỏ dần việc xác thực dựa trên giọng nói như một biện pháp bảo mật để truy cập tài khoản ngân hàng và các thông tin nhạy cảm khác
- Khám phá các chính sách để bảo vệ việc sử dụng tiếng nói của cá nhân trong AI
- Giáo dục công chúng hiểu được khả năng và hạn chế của công nghệ AI, bao gồm cả khả năng có nội dung AI lừa đảo
- Đẩy nhanh quá trình phát triển và áp dụng các kỹ thuật theo dõi nguồn gốc của nội dung nghe nhìn để phân biệt được bạn đang tương tác với người thật hoặc với AI
Điều quan trọng là mọi người trên khắp thế giới phải hiểu công nghệ này sẽ hướng tới đâu, liệu cuối cùng chúng ta có tự mình triển khai nó rộng rãi hay không. OpenAI mong muốn tiếp tục tham gia vào các cuộc đối thoại về những thách thức và cơ hội của tiếng nói tổng hợp với các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển và nhà sáng tạo.
Trung Hòa