14/5/2024 (TinAI.vn) – Tại sự kiện “Spring Update” sáng thứ Ba, OpenAI đã giới thiệu GPT-4o (“o” viết tắt của “omni”) là một sản phẩm AI với bước tiến mới hướng tới sự tương tác giữa con người và máy tính tự nhiên hơn thông qua giọng nói có ngữ điệu, nhận biết cảm xúc của người nói và khả năng dịch thuật trực tiếp, đọc, phân tích hình ảnh, video thông minh đến kinh ngạc.
Với phiên bản cập nhật này, OpenAI đang giúp cho con người ngày càng tiến dần tới việc ứng dụng AI thuận tiện và dễ dàng hơn bao giờ hết trọng mọi lĩnh vực của cuộc sống như: học tập, kinh doanh, phân tích, xử lý dữ liệu, đi du lịch và làm việc, giao tiếp với những người ở các quốc gia khác nhau mà không cần biết ngôn ngữ bản địa…
Mời bạn cùng TinAI.vn khám phá sức mạnh GPT-4o của OpenAI nhé.
Xem thêm: Cách sử dụng GPT-4o
1. Nhóm Zalo ứng dụng AI trong giáo dục
2. Nhóm Zalo ứng dụng AI trong kinh doanh3. Cộng đồng Facebook Ứng dụng AI trong kinh doanh
4. Cộng đồng Facebook ứng dụng Open AI – ChatGPT trong giáo dục
GPT-4o thể hiện khả năng trò chuyện
GPT-4o có thể phản hồi với âm thanh đầu vào chỉ trong 232 mili giây, trung bình là 320 mili giây, tương tự như thời gian phản hồi của con người(Mở ra trong một cửa sổ mới) trong một cuộc trò chuyện. Nó phù hợp với hiệu suất của GPT-4 Turbo trên văn bản bằng tiếng Anh và mã, với sự cải thiện đáng kể về văn bản ở các ngôn ngữ không phải tiếng Anh, đồng thời nhanh hơn nhiều và rẻ hơn 50% trong API. GPT-4o đặc biệt tốt hơn về khả năng hiểu hình ảnh và âm thanh so với các mô hình hiện có.
Khả năng của mô hình
Hai mô hình GPT-4o trò chuyện với nhau và hát
Với các phiên bản trước GPT-4o, bạn có thể sử dụng chế độ giọng nói để nói chuyện với ChatGPT với độ trễ trung bình là 2,8 giây (GPT-3.5) và 5,4 giây (GPT-4). Để đạt được điều này, Chế độ giọng nói là một hệ thống gồm ba mô hình riêng biệt: một mô hình đơn giản chuyển âm thanh thành văn bản, GPT-3.5 hoặc GPT-4 nhận văn bản và xuất văn bản và mô hình đơn giản thứ ba chuyển đổi văn bản đó trở lại thành âm thanh. Quá trình này có nghĩa là nguồn thông tin chính, GPT-4, mất rất nhiều thông tin—nó không thể lắng nghe trực tiếp âm thanh, nhiều người nói hoặc tiếng ồn xung quanh và không thể tạo ra tiếng cười, ca hát hoặc bày tỏ cảm xúc.
GPT-4o trình diến khả năng phiên dịch trực tiếp
Với GPT-4o, OpenAI đã đào tạo một mô hình mới từ đầu đến cuối cho văn bản, hình ảnh và âm thanh, nghĩa là tất cả đầu vào và đầu ra đều được xử lý bởi cùng một neural network. Bởi vì GPT-4o là mô hình đầu tiên OpenAI kết hợp tất cả các phương thức này nên OpenAI vẫn chỉ mới bắt đầu khám phá những gì mô hình có thể làm và những hạn chế của nó.
Đánh giá mô hình
Khi được đo bằng các điểm chuẩn truyền thống, GPT-4o đạt được hiệu suất ở cấp độ GPT-4 Turbo về văn bản, lý luận và trí thông minh mã hóa, đồng thời thiết lập các hình mờ cao mới về khả năng đa ngôn ngữ, âm thanh và hình ảnh.
1. Đánh giá văn bản
2. Hiệu suất ASR âm thanh
3. Hiệu suất dịch âm thanh
4. Đánh giá hiểu biết về tầm nhìn
5. Mã thông báo ngôn ngữ
20 ngôn ngữ GPT-4o hỗ trợ trong đó có Tiếng Việt đều đã được cải tiến và xử lý với lượng token ít hơn, cụ thể với tiếng Việt đã giảm ít hơn 1,5 lần token (từ 46 xuống 30).
An toàn và hạn chế của mô hình
GPT-4o được thiết kế tích hợp tính năng an toàn trên nhiều phương thức, thông qua các kỹ thuật như lọc dữ liệu đào tạo và tinh chỉnh hành vi của mô hình thông qua đào tạo sau. OpenAI cũng đã tạo ra các hệ thống an toàn mới để cung cấp rào chắn cho đầu ra giọng nói.
OpenAI đã đánh giá GPT-4o theo Khung chuẩn bị sẵn sàng và phù hợp với các cam kết tự nguyện của họ. Đánh giá của OpenAI về an ninh mạng, CBRN, khả năng thuyết phục và quyền tự chủ của mô hình cho thấy GPT-4o không đạt điểm trên rủi ro trung bình trong bất kỳ danh mục nào trong số này. Đánh giá này bao gồm việc chạy một bộ đánh giá tự động và con người trong suốt quá trình đào tạo mô hình. OpenAI đã thử nghiệm cả phiên bản giảm thiểu trước an toàn và sau giảm thiểu an toàn của mô hình, bằng cách sử dụng các lời nhắc và tinh chỉnh tùy chỉnh để phát huy tốt hơn các khả năng của mô hình.
GPT-4o cũng đã trải qua quá trình hợp tác mở rộng bên ngoài với hơn 70 chuyên gia trong các lĩnh vực như tâm lý xã hội, sự thiên vị và công bằng cũng như thông tin sai lệch để xác định các rủi ro do các phương thức mới được thêm vào gây ra hoặc khuếch đại. OpenAI đã sử dụng những kiến thức này để xây dựng các biện pháp can thiệp về an toàn nhằm cải thiện mức độ an toàn khi tương tác với GPT-4o. OpenAI sẽ tiếp tục giảm thiểu những rủi ro mới khi chúng được phát hiện.
OpenAI nhận thấy rằng các phương thức âm thanh của GPT-4o có nhiều rủi ro mới. Hôm nay OpenAI sẽ phát hành công khai văn bản, hình ảnh đầu vào và đầu ra văn bản. Trong những tuần và tháng sắp tới, OpenAI sẽ nghiên cứu về cơ sở hạ tầng kỹ thuật, khả năng sử dụng thông qua đào tạo sau và độ an toàn cần thiết để triển khai các phương thức khác. Ví dụ: khi ra mắt, đầu ra âm thanh sẽ bị giới hạn ở một số giọng nói cài sẵn và sẽ tuân thủ các chính sách an toàn hiện có. OpenAI sẽ chia sẻ thêm thông tin chi tiết về toàn bộ phương thức của GPT-4o trong thời gian sắp tới.
Thông qua thử nghiệm và lặp lại mô hình, OpenAI đã nhận thấy một số hạn chế tồn tại trên tất cả các phương thức của mô hình, một số hạn chế được minh họa bên dưới.
Xem thêm: Cách sử dụng GPT-4o
1. Nhóm Zalo ứng dụng AI trong giáo dục
2. Nhóm Zalo ứng dụng AI trong kinh doanh3. Cộng đồng Facebook Ứng dụng AI trong kinh doanh
4. Cộng đồng Facebook ứng dụng Open AI – ChatGPT trong giáo dục