16/2/2024 (TinAI.vn) – Hôm qua, Google đã công bố phát hành Gemini 1.5 Pro, thành viên mới nhất trong dòng mô hình GenAI Gemini. Được thiết kế để thay thế cho Gemini 1.0 Pro (trước đây gọi là “Gemini Pro 1.0”. Gemini 1.5 Pro được cải thiện ở một số lĩnh vực so với phiên bản tiền nhiệm mà nổi bật nhất là về lượng dữ liệu mà nó có thể xử lý.
Gemini 1.5 Pro có thể xử lý ~700.000 từ hoặc ~30.000 dòng mã – gấp 35 lần số lượng mà Gemini 1.0 Pro có thể thực hiện. Gemini 1.5 Pro xử lý được 11 giờ âm thanh hoặc một giờ video bằng nhiều ngôn ngữ khác nhau và chạy liên tục lên tới 1 triệu mã thông báo, đạt được khoảng thời gian ngữ cảnh dài nhất so với bất kỳ mô hình nền tảng quy mô lớn nào.
Gemini 1.5 Pro hiện đang ở dạng bản xem trước riêng tư trên Vertex AI và có sẵn cho các nhà phát triển cũng như người dùng doanh nghiệp trước khi triển khai đầy đủ cho người dùng.
Gemini 1.5 Pro được xây dựng trên kỹ thuật Hỗn hợp chuyên môn (MoE), cho phép nó chạy một phần khi bạn đặt câu hỏi thay vì xử lý toàn bộ mô hình trong toàn bộ thời gian. Do đó, cách tiếp cận này giúp Gemini 1.5 Pro hoạt động nhanh chóng, đồng thời giúp Google hoạt động hiệu quả.
Google cũng cho biết họ sẽ mang đến nhiều mẫu Gemini hơn cho khách hàng với các bản cập nhật mới và tính khả dụng mở rộng trên nền tảng trí tuệ nhân tạo (AI) Vertex của mình. Gemini 1.0 Pro, một mô hình để mở rộng quy mô cho các nhiệm vụ AI, hiện đã có sẵn cho tất cả khách hàng của Vertex AI.
So sánh với các mô hình của OpenAI:
Hiểu biết và độ dài theo ngữ cảnh: Tính năng đáng chú ý của Gemini 1.5 là khả năng hiểu ngữ cảnh dài, với khả năng xử lý lên tới 1 triệu mã thông báo, vượt xa hơn hẳn so với GPT-4. Điều này cho phép Gemini 1.5 xử lý thông tin sâu rộng hơn chỉ bằng một lời nhắc. Tuy nhiên, các thuật toán phức tạp của GPT-4 đã được tinh chỉnh thông qua đào tạo mở rộng và ứng dụng trong thế giới thực, thể hiện mức độ sắc thái, tính sáng tạo và độ tin cậy cao trong việc tạo văn bản.
Hiệu quả và khả năng mở rộng: Kiến trúc MoE của Gemini 1.5 nâng cao hiệu quả của nó, giúp nó có khả năng mở rộng cao hơn và tiết kiệm chi phí hơn cho một số ứng dụng nhất định. GPT-4, mặc dù có hiệu quả cao nhưng có thể yêu cầu nhiều tài nguyên tính toán hơn cho các tác vụ tương tự, đặc biệt là khi xử lý các tập dữ liệu lớn hoặc các lời nhắc phức tạp.
Khoảng cách đổi mới trong việc tạo video: Việc Google không có mô hình tạo video tương đương đã làm nổi bật khoảng cách trong các dịch vụ AI của họ. Sora của OpenAI cũng mới ra mắt ngày hôm qua đã đặt ra tiêu chuẩn cao cho những gì có thể làm được trong quá trình tạo video do AI thực hiện, mang đến những hướng mới để những nhà sáng tạo kể chuyện, giải trí và làm giáo dục.
Tiềm năng phát triển trong tương lai: Với thành tích mạnh mẽ của Google trong nghiên cứu và phát triển AI, rất có thể họ đang nghiên cứu hoặc cuối cùng sẽ giới thiệu các công nghệ tạo video tiên tiến. Trong bối cảnh AI đang phát triển nhanh chóng và chuyên môn của Google về học máy cũng như cơ sở hạ tầng AI quy mô lớn có thể sẽ giúp họ đổi mới trong lĩnh vực này.
Tóm lại, trong khi Gemini 1.5 thể hiện những tiến bộ đầy hứa hẹn trong việc tạo văn bản và xử lý ngữ cảnh lớn, Google vẫn chưa tiết lộ mô hình tạo video phù hợp với khả năng mang tính cách mạng của Sora của OpenAI. Sự so sánh giữa Gemini 1.5 và GPT-4 nhấn mạnh sự cạnh tranh và đổi mới đang diễn ra trong AI, với mỗi mô hình mang lại những điểm mạnh riêng và ứng dụng tiềm năng.
Trung Kiên