5/7/2024 (TinAI.vn) – Công ty khởi nghiệp AI của Pháp Kyutai đã công bố Moshi AI, một trợ lý AI nguồn mở có khả năng trò chuyện tự nhiên trong thời gian thực và có thể cũng vượt qua GPT-4o giao tiếp giọng nói chưa phát hành của OpenAI ở nhiều khía cạnh. Sự phát triển này đánh dấu một bước tiến quan trọng trong việc hỗ trợ cộng đồng dễ dàng tiếp cận côngg nghệ AI tiên tiến.
Trong buổi thuyết trình, Tổng giám đốc điều hành Kyutai Patrick Perez giải thích rằng Moshi được phát triển bởi một nhóm gồm tám người chỉ trong sáu tháng. Điểm khác biệt của Moshi AI là khả năng nói và nghe theo thời gian thực. Kyutai tuyên bố rằng Moshi có độ trễ lý thuyết chỉ 160 mili giây, trong khi trên thực tế, nó dao động trong khoảng từ 200 đến 240 mili giây.
Kiến trúc của Moshi dựa trên một phương pháp tiếp cận mới mà Kyutai gọi là “Mô hình ngôn ngữ âm thanh”. Thay vì chuyển đổi giọng nói thành văn bản như thường lệ, mô hình này nén dữ liệu âm thanh và xử lý dữ liệu đó luôn. Điều này cho phép nó hoạt động trực tiếp với dữ liệu âm thanh và dự đoán giọng nói tương tự như GPT-4o.
Để đào tạo, Kyutai đã sử dụng nhiều nguồn dữ liệu khác nhau, bao gồm dữ liệu chuyển động của con người và video YouTube. Đầu tiên, một mô hình văn bản thuần túy có tên Helium đã được đào tạo. Sau đó, đào tạo kết hợp dữ liệu văn bản và âm thanh. Các cuộc đối thoại tổng hợp đã được sử dụng để tinh chỉnh cuộc trò chuyện.
Vì mô hình ngôn ngữ cơ bản chỉ có 7 tỷ tham số nên nó thể hiện những hạn chế thông thường của các mô hình nhỏ trong đối thoại. Tuy nhiên, khả năng ngôn ngữ và tốc độ rất ấn tượng, gợi ý về nhiều tiềm năng trong tương lai khi các mô-đun này hoàn thiện hơn.
Để Moshi có giọng nói nhất quán, Kyutai đã hợp tác với một diễn viên lồng tiếng tên là Alice. Cô đã ghi âm các đoạn độc thoại và đối thoại theo nhiều phong cách khác nhau, sau đó được sử dụng để đào tạo hệ thống tổng hợp giọng nói.
Kyutai nhìn thấy tiềm năng to lớn ở Moshi để thay đổi cách chúng ta giao tiếp với máy móc. Công ty nhìn thấy những ứng dụng đầy hứa hẹn, đặc biệt là hỗ trợ cho người khuyết tật.
Bạn có thể đăng ký Moshi AI và sử dụng ngay Bản demo hiện đã có sẵn trực tuyến tại đây. Sau khi nhập địa chỉ email của bạn và Click nút “Join queue” – tham gia hàng đợi, một cửa sổ nhỏ khác bật lên xác nhận bạn cho phép mở Micro để giúp thiết bị kết nối giao tiếp bằng giọng nói với Moshi AI thông qua cửa sổ như hình dưới:
Trong những tháng tới, Kyutai có kế hoạch phát hành công nghệ dưới dạng mã nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu kiểm tra, điều chỉnh và mở rộng công nghệ. Một bài báo nghiên cứu cũng sẽ được công bố sau đó.
Kyutai được thành lập vào năm 2023 và nhận được 300 triệu euro từ các tỷ phú người Pháp như Xavier Niel và Rodolphe Saadé vào tháng 11 năm ngoái. Kyutai đã thu hút các nhà nghiên cứu AI nổi tiếng như Yann LeCun và Bernhard Schölkopf làm cố vấn khoa học. Một trong những lý lẽ chính thu hút các nhà nghiên cứu đến với Kyutai là cam kết của công ty đối với khoa học mở và khả năng công bố công trình của họ: Tất cả các mô hình của Kyutai đều là nguồn mở và các nhà nghiên cứu có kế hoạch công bố không chỉ các mô hình mà còn cả mã nguồn đào tạo và tài liệu về quy trình đào tạo giúp cộng đồng quan tâm tiếp cận một cách dễ dàng.
Phương Uyên