23/4/2024 (TinAI.vn) – Microsoft đã ra mắt phiên bản tiếp theo của mẫu AI nhẹ Phi-3 Mini, phiên bản đầu tiên trong số ba mẫu nhỏ mà công ty dự định phát hành.
Phi-3 Mini đo 3,8 tỷ tham số và được đào tạo trên tập dữ liệu nhỏ hơn so với các mô hình ngôn ngữ lớn như GPT-4. Nó hiện có sẵn trên Azure. Microsoft có kế hoạch phát hành Phi-3 Small (thông số 7B) và Phi-3 Medium (thông số 14B). Các tham số đề cập đến số lượng lệnh phức tạp mà một mô hình có thể hiểu được.
Công ty đã phát hành Phi-2 vào tháng 12 , hoạt động tốt như các mẫu lớn hơn như Llama 2. Microsoft cho biết Phi-3 hoạt động tốt hơn phiên bản trước và có thể cung cấp phản hồi gần giống như một mẫu lớn hơn 10 lần so với khả năng của nó.
Eric Boyd, phó chủ tịch tập đoàn của Microsoft Azure AI Platform, nói với The Verge Phi-3 Mini có khả năng tương đương với các LLM như GPT-3.5 “chỉ ở dạng nhỏ hơn”.
So với các mô hình lớn hơn, các mô hình AI nhỏ thường chạy rẻ hơn và hoạt động tốt hơn trên các thiết bị cá nhân như điện thoại và máy tính xách tay. Đầu năm nay, The Information đưa tin rằng Microsoft đang xây dựng một nhóm tập trung đặc biệt vào các mô hình AI nhẹ hơn . Cùng với Phi, công ty cũng đã xây dựng Orca-Math , một mô hình tập trung vào việc giải các bài toán.
Các đối thủ cạnh tranh của Microsoft cũng có các mô hình AI nhỏ của riêng họ, hầu hết nhắm đến các nhiệm vụ đơn giản hơn như tóm tắt tài liệu hoặc hỗ trợ mã hóa. Gemma 2B và 7B của Google rất phù hợp cho các chatbot đơn giản và công việc liên quan đến ngôn ngữ. Claude 3 Haiku của Anthropic có thể đọc các tài liệu nghiên cứu dày đặc bằng biểu đồ và tóm tắt chúng một cách nhanh chóng, trong khi Llama 3 8B được phát hành gần đây từ Meta có thể được sử dụng cho một số chatbot và hỗ trợ mã hóa.
Boyd cho biết các nhà phát triển đã đào tạo Phi-3 bằng một “chương trình giảng dạy”. Họ lấy cảm hứng từ cách trẻ em học hỏi từ những câu chuyện trước khi đi ngủ, những cuốn sách có từ đơn giản hơn và cấu trúc câu nói về những chủ đề lớn hơn.
“Không có đủ sách dành cho trẻ em ở đó, vì vậy chúng tôi đã lấy một danh sách hơn 3.000 từ và yêu cầu một LLM làm ‘sách dành cho trẻ em' để dạy Phi,” Boyd nói.
Ông nói thêm rằng Phi-3 chỉ đơn giản được xây dựng dựa trên những gì các lần lặp lại trước đó đã học được. Trong khi Phi-1 tập trung vào mã hóa và Phi-2 bắt đầu học cách suy luận thì Phi-3 giỏi hơn về mã hóa và lý luận. Mặc dù dòng người mẫu Phi-3 biết một số kiến thức chung nhưng về chiều rộng thì nó không thể đánh bại GPT-4 hoặc LLM khác — có sự khác biệt lớn về loại câu trả lời bạn có thể nhận được từ LLM được đào tạo trên toàn bộ Internet so với một mô hình nhỏ hơn như Phi-3.
Boyd nói rằng các công ty thường thấy rằng các mẫu nhỏ hơn như Phi-3 hoạt động tốt hơn cho các ứng dụng tùy chỉnh của họ vì đối với nhiều công ty, bộ dữ liệu nội bộ của họ dù sao cũng sẽ nhỏ hơn. Và bởi vì những mô hình này sử dụng ít sức mạnh tính toán hơn nên chúng thường có giá cả phải chăng hơn nhiều.
Trung Kiến