Apple phát triển AI có thể nhìn và hiểu bối cảnh màn hình

by TS. NGUYỄN TRUNG HÒA 02/04/2024

02/04/2024 0 bình luận 3 phút đọc

Apple phát triển AI có thể nhìn và hiểu bối cảnh màn hình

2/4/2024 (TinAI.vn) – Theo bài báo xuất bản ngày 29/3/2024, các nhà nghiên cứu của Apple đã phát triển một hệ thống trí tuệ nhân tạo mới có thể hiểu các tham chiếu mơ hồ đến các thực thể trên màn hình cũng như bối cảnh hội thoại và nền, cho phép tương tác tự nhiên hơn với trợ lý giọng nói.

Hệ thống, được gọi là ReALM (Reference Resolution As Language Modeling – Độ phân giải tham chiếu dưới dạng mô hình ngôn ngữ) , tận dụng các mô hình ngôn ngữ lớn để chuyển đổi nhiệm vụ phức tạp của độ phân giải tham chiếu — bao gồm hiểu các tham chiếu đến các thành phần hình ảnh trên màn hình — thành một vấn đề mô hình hóa ngôn ngữ thuần túy. Điều này cho phép ReALM đạt được hiệu suất tăng đáng kể so với các phương pháp hiện có.

Nhóm nghiên cứu của Apple viết: “Có thể hiểu ngữ cảnh, bao gồm cả tài liệu tham khảo, là điều cần thiết đối với một trợ lý đàm thoại”. “Cho phép người dùng đưa ra truy vấn về những gì họ nhìn thấy trên màn hình là một bước quan trọng để đảm bảo trải nghiệm rảnh tay thực sự trong việc trợ lý giọng nói.”

Tăng cường trợ lý đàm thoại
Để giải quyết các tham chiếu dựa trên màn hình, một cải tiến quan trọng của ReALM là tái tạo lại màn hình bằng cách sử dụng các thực thể được phân tích cú pháp trên màn hình và vị trí của chúng để tạo ra bản trình bày văn bản thể hiện được bố cục trực quan. Các nhà nghiên cứu đã chứng minh rằng phương pháp này, kết hợp với các mô hình ngôn ngữ tinh chỉnh dành riêng cho độ phân giải tham chiếu, có thể vượt trội hơn GPT-4 trong thực hiện các nhiệm vụ.

Các nhà nghiên cứu viết: “Chúng tôi chứng minh những cải tiến lớn so với hệ thống hiện có với chức năng tương tự trên các loại tham chiếu khác nhau, với mô hình nhỏ nhất của chúng tôi đạt được mức tăng tuyệt đối trên 5% cho các tham chiếu trên màn hình”. “Các mẫu lớn hơn của chúng tôi hoạt động tốt hơn đáng kể so với GPT-4.”

Ứng dụng thực tế và hạn chế
Công trình nêu bật tiềm năng của các mô hình ngôn ngữ tập trung để xử lý các tác vụ như phân giải tham chiếu trong các hệ thống sản xuất trong đó việc sử dụng các mô hình đầu cuối lớn là không khả thi do độ trễ hoặc hạn chế về tính toán. Bằng cách công bố nghiên cứu này, Apple đang báo hiệu sự đầu tư liên tục của mình vào việc làm cho Siri và các sản phẩm khác trở nên giao tiếp và nhận biết ngữ cảnh tốt hơn.

TS. NGUYỄN TRUNG HÒA

🚀 Tiến sĩ Kỹ thuật & Khoa học Quản lý với 23+ năm kinh nghiệm trong giáo dục và đào tạo. Chuyên gia đào tạo ứng dụng AI & Tư duy Thiết kế hiệu quả. Tiên phong đề xuất các ý tưởng, định hướng, cách vận dụng AI trong nhiều lĩnh vực, phát triển các giải pháp AI tự động hóa thông minh cho cá nhân và doanh nghiệp. Sáng lập Tinai.vn, DaoTaoAI.Edu.vn & nhiều dự án AI đột phá, giúp cộng đồng tiếp cận và ứng dụng AI hiệu quả. 👉 Tìm hiểu thêm: https://TinAI.vn/CVTrung_Hoa - Hoặc Click các biểu tượng Mạng XH bên dưới để tham khảo chi tiết... 📞 Hotline / Zalo Tư vấn triển khai, đào tạo AI, Design Thinking cho cá nhân, tổ chức và doanh nghiệp: 0888186788

TS. NGUYỄN TRUNG HÒA

Giới thiệu TinAI.vn

Thông tin

Liên kết hữu ích

Đăng ký tin mới nhất

Tin mới

Queue

Apple phát triển AI có thể nhìn và hiểu bối cảnh màn hình

TS. NGUYỄN TRUNG HÒA

Có thể bạn quan tâm

Gemini 2.5 hiện đã hỗ trợ bộ nhớ đệm ngầm

ChatGPT có lượng sử dụng nhiều hơn khoảng 50 phần trăm vào các ngày...

Google AI Studio: Khai thác sức mạnh Gemini 2.5 Pro miễn phí 500 lượt...

Google hé lộ Agent2Agent (A2A): Tương lai nơi các trợ lý ai ‘bắt tay’...

OpenAI tung Ra o4-mini “Ngon-Bổ-Rẻ” và Siêu AI o3 hứa hẹn thay đổi cuộc...

Cách dùng Google AI Studio tạo video miễn phí bằng Veo AI

Gửi bình luận Cancel Reply

Giới thiệu TinAI.vn

Thông tin

Liên kết hữu ích

Đăng ký tin mới nhất

Tin mới

Queue