2/4/2024 (TinAI.vn) – Theo bài báo xuất bản ngày 29/3/2024, các nhà nghiên cứu của Apple đã phát triển một hệ thống trí tuệ nhân tạo mới có thể hiểu các tham chiếu mơ hồ đến các thực thể trên màn hình cũng như bối cảnh hội thoại và nền, cho phép tương tác tự nhiên hơn với trợ lý giọng nói.
Hệ thống, được gọi là ReALM (Reference Resolution As Language Modeling – Độ phân giải tham chiếu dưới dạng mô hình ngôn ngữ) , tận dụng các mô hình ngôn ngữ lớn để chuyển đổi nhiệm vụ phức tạp của độ phân giải tham chiếu — bao gồm hiểu các tham chiếu đến các thành phần hình ảnh trên màn hình — thành một vấn đề mô hình hóa ngôn ngữ thuần túy. Điều này cho phép ReALM đạt được hiệu suất tăng đáng kể so với các phương pháp hiện có.
Nhóm nghiên cứu của Apple viết: “Có thể hiểu ngữ cảnh, bao gồm cả tài liệu tham khảo, là điều cần thiết đối với một trợ lý đàm thoại”. “Cho phép người dùng đưa ra truy vấn về những gì họ nhìn thấy trên màn hình là một bước quan trọng để đảm bảo trải nghiệm rảnh tay thực sự trong việc trợ lý giọng nói.”
Tăng cường trợ lý đàm thoại
Để giải quyết các tham chiếu dựa trên màn hình, một cải tiến quan trọng của ReALM là tái tạo lại màn hình bằng cách sử dụng các thực thể được phân tích cú pháp trên màn hình và vị trí của chúng để tạo ra bản trình bày văn bản thể hiện được bố cục trực quan. Các nhà nghiên cứu đã chứng minh rằng phương pháp này, kết hợp với các mô hình ngôn ngữ tinh chỉnh dành riêng cho độ phân giải tham chiếu, có thể vượt trội hơn GPT-4 trong thực hiện các nhiệm vụ.
Các nhà nghiên cứu viết: “Chúng tôi chứng minh những cải tiến lớn so với hệ thống hiện có với chức năng tương tự trên các loại tham chiếu khác nhau, với mô hình nhỏ nhất của chúng tôi đạt được mức tăng tuyệt đối trên 5% cho các tham chiếu trên màn hình”. “Các mẫu lớn hơn của chúng tôi hoạt động tốt hơn đáng kể so với GPT-4.”
Ứng dụng thực tế và hạn chế
Công trình nêu bật tiềm năng của các mô hình ngôn ngữ tập trung để xử lý các tác vụ như phân giải tham chiếu trong các hệ thống sản xuất trong đó việc sử dụng các mô hình đầu cuối lớn là không khả thi do độ trễ hoặc hạn chế về tính toán. Bằng cách công bố nghiên cứu này, Apple đang báo hiệu sự đầu tư liên tục của mình vào việc làm cho Siri và các sản phẩm khác trở nên giao tiếp và nhận biết ngữ cảnh tốt hơn.
Tuy nhiên, các nhà nghiên cứu cảnh báo rằng việc dựa vào phân tích màn hình tự động có những hạn chế. Việc xử lý các tham chiếu trực quan phức tạp hơn, như phân biệt giữa nhiều hình ảnh, có thể sẽ yêu cầu kết hợp thị giác máy tính và các kỹ thuật đa phương thức.
Phương Uyên