26/3/2025 (TinAI.vn) – Sáng nay vào lúc 1h00 sáng (giờ Việt Nam), Open AI đã tiến hành ra mắt tính năng tạo ảnh gốc (native image generation) được nhúng trực tiếp bên trong ChatGPT cung cấp bởi mô hình GPT-4o mới nhất.
-
Khả năng cốt lõi:
-
GPT-4o là một mô hình “omnimodal” (đa phương thức), có khả năng hiểu và tạo ra nội dung kết hợp nhiều loại đầu vào (văn bản, hình ảnh, âm thanh) một cách liền mạch.
-
Nó có thể nhận cả văn bản và hình ảnh làm đầu vào trong cùng một lời nhắc và tạo ra hình ảnh đầu ra.
-
-
Cải tiến và Tính năng nổi bật:
– Kết xuất văn bản (Text Rendering): Khả năng tạo ảnh chứa văn bản (chữ viết) với độ chính xác và rõ ràng cao hơn nhiều so với các mô hình trước đây. (Ví dụ: tạo ảnh ghi chú diễn giả, meme, thẻ bài, đồng xu).
- Ví dụ Prompt: Tạo hình ảnh market chào mừng ngày 30/4 -Ngày Giải phóng miền Nam, thống nhất đất nước ở Việt Nam:
– Hiểu ngữ cảnh hình ảnh và văn bản: Mô hình có thể hiểu yêu cầu từ văn bản kết hợp với nội dung của (nhiều) hình ảnh được cung cấp để tạo ra kết quả phù hợp. (Ví dụ: tạo thẻ bài theo phong cách ảnh mẫu nhưng thay đổi nhân vật chính).
- Ví dụ: dưới đây có 2 hình ảnh ban đầu tách biệt và cần ghép ảnh sản phẩm vào tay cô gái với Prompt “Hãy đưa chai dầu gội vào tay cô gái để quảng cáo sản phẩm” sẽ có kết quả như hình:
Với kết quả trên, chúng ta có thể thấy, ảnh sản phẩm không những được ghép vào đúng tư thế mà ảnh của cô gái còn được làm sạch hết các chữ ký tự đóng dấu bản quyền và đồng thời chất lượng ảnh cũng còn được nâng cấp cao hơn.
– Sao chép phong cách (Style Replication): Có thể tạo ảnh mới theo phong cách thẩm mỹ của một hình ảnh tham chiếu. (Ví dụ: thẻ bài Sanji theo phong cách thẻ Sora).
– Chỉnh sửa đa lượt (Multi-turn Editing & Refinement): Người dùng có thể yêu cầu chỉnh sửa, thay đổi chi tiết trên hình ảnh vừa được tạo ra thông qua các lượt trò chuyện tiếp theo, mang lại khả năng kiểm soát cao hơn. (Ví dụ: biến ảnh selfie thành anime, rồi thành meme; biến đồng xu thành nền trong suốt).
– Hiểu biết sâu sắc hơn: Mô hình thể hiện khả năng hiểu các yêu cầu phức tạp, chi tiết, thậm chí cả sự hài hước và các khái niệm trừu tượng (như thuyết tương đối). (Ví dụ: trang manga về thuyết tương đối).
– Tính công cụ: Nhấn mạnh việc biến tạo ảnh từ một “đồ chơi” thành một “công cụ” hữu ích, đáng tin cậy và dễ kiểm soát hơn cho công việc sáng tạo, giáo dục, kinh doanh,…
* OpenAI đã trình diễn các ví dụ điển hình trong chương trình ra mắt:
- Tạo ảnh ghi chú của diễn giả trên giấy.
- Biến ảnh selfie thành phong cách anime.
- Biến ảnh anime thành meme với tiêu đề cụ thể.
- Tạo một trang truyện manga giải thích thuyết tương đối một cách hài hước.
- Tạo một thẻ bài (trading card) theo phong cách mẫu với nhân vật, thông số tùy chỉnh.
- Thiết kế một đồng xu kỷ niệm dựa trên các hình ảnh đã tạo trước đó và các vật thể trong phòng, với màu sắc và chữ viết cụ thể.
- Chỉnh sửa đồng xu để có nền trong suốt.
Chi tiết xem thêm TẠI ĐÂY hoặc Video sau:
* Thông tin phát hành:
-
-
Tính năng bắt đầu được triển khai cho người dùng ChatGPT (Plus và Team trước, sau đó sẽ đến người dùng miễn phí) ngay từ hôm nay (ngày 25/03/2025 theo giờ Mỹ).
-
Sẽ sớm có mặt trên API cho các nhà phát triển.
-
Tóm lại, đây là một bước tiến lớn trong việc tích hợp khả năng tạo và chỉnh sửa hình ảnh trực tiếp vào mô hình ngôn ngữ lớn, giúp ChatGPT trở nên đa năng và hữu ích hơn rất nhiều trong các tác vụ sáng tạo và công việc hàng ngày.
TS. Nguyễn Trung Hòa TH