ChatGPT Images 2.0: Kỷ Nguyên Tạo Chữ Trong Ảnh Cực Chuẩn

Chỉ mới hai năm trước, việc phân biệt giữa hình ảnh do con người tạo ra và AI tạo ra là một điều vô cùng dễ dàng. Nếu bạn dùng AI để thiết kế một tấm menu cho nhà hàng (ví dụ quán ăn Mexico hay quán Phở Việt Nam), bạn chắc chắn sẽ nhận lại những từ ngữ sai chính tả kỳ quặc như "enchuita", "churiros" hay "margartas". Tuy nhiên, mọi thứ đã thay đổi với bản cập nhật mới nhất từ OpenAI.

Từ "thảm họa" chính tả đến độ chính xác kinh ngạc

Hiện tại, khi yêu cầu mô hình ChatGPT Images 2.0 hoàn toàn mới tạo một thực đơn đồ ăn, nó có thể thiết kế ra một ấn phẩm hoàn chỉnh, sẵn sàng sử dụng ngay cho nhà hàng mà khách hàng không hề nhận ra sự khác biệt. (Dù vậy, một món ăn định giá sai thực tế có thể là điểm "lấn cấn" duy nhất về mặt nội dung).

Đối với các Marketer và Designer tại Việt Nam, đây là một bước tiến mang tính cách mạng. Bạn không còn phải chật vật dùng AI để tạo nền ảnh, sau đó xuất ra Photoshop để chèn chữ thủ công nữa.

Image Credits:ChatGPT Images 2.0

Tại sao AI tạo ảnh trước đây lại "kém tắm" trong việc viết chữ?

Trong lịch sử, các công cụ tạo ảnh AI thường xuyên gặp khó khăn trong việc đánh vần. Nguyên nhân chính là do chúng sử dụng mô hình khuếch tán (diffusion models), hoạt động dựa trên nguyên lý tái tạo hình ảnh từ các nhiễu hạt (noise).

"Các mô hình khuếch tán [...] chỉ đang cố gắng tái tạo lại một đầu vào nhất định," Asmelash Teka Hadgu, nhà sáng lập kiêm CEO của Lesan AI chia sẻ vào năm 2024. "Chúng ta phải hiểu rằng văn bản trên một bức ảnh chỉ chiếm một phần rất, rất nhỏ, do đó công cụ tạo ảnh ưu tiên học các mẫu (patterns) bao phủ nhiều pixel hơn thay vì tập trung vào chữ viết."

Để khắc phục, các nhà nghiên cứu đã khám phá những cơ chế tạo ảnh khác, chẳng hạn như mô hình tự hồi quy (autoregressive models), hoạt động tương tự như các Mô hình Ngôn ngữ Lớn (LLM) để dự đoán hình ảnh nên trông như thế nào.

Sức mạnh "Tư duy" của ChatGPT Images 2.0

Dù OpenAI từ chối tiết lộ chi tiết về kiến trúc lõi của ChatGPT Images 2.0, công ty đã xác nhận rằng mô hình mới này sở hữu "khả năng tư duy" (thinking capabilities).

Điều này mang lại cho AI những sức mạnh vượt trội:

Tìm kiếm thông tin trên web theo thời gian thực.
Tạo nhiều hình ảnh chỉ từ một câu lệnh (prompt).
Tự động đối chiếu, kiểm tra chéo các tác phẩm của chính nó.

Nhờ đó, Images 2.0 có thể thiết kế các ấn phẩm marketing với nhiều kích thước khác nhau, thậm chí vẽ được cả những dải truyện tranh (comic strips) nhiều khung hình với độ nhất quán cao.

Sự phát triển mạnh mẽ của AI không chỉ giới hạn ở việc tạo ảnh. Bức tranh toàn cảnh của ngành công nghệ cũng đang biến động dữ dội. Gần đây, giới công nghệ không khỏi ngỡ ngàng trước thông tin SpaceX hợp tác mua lại Cursor với giá 60 tỷ USD, một minh chứng rõ ràng cho việc các ông lớn đang dồn lực thâu tóm những nền tảng AI đột phá nhất để định hình tương lai.

Hỗ trợ đa ngôn ngữ và độ phân giải 2K

OpenAI cho biết Images 2.0 có khả năng hiểu và hiển thị văn bản phi Latinh tốt hơn rất nhiều, hỗ trợ các ngôn ngữ như tiếng Nhật, tiếng Hàn, tiếng Hindi và tiếng Bengal. Dù dữ liệu của mô hình bị giới hạn đến tháng 12 năm 2025 (có thể ảnh hưởng đến các prompt liên quan đến tin tức mới nhất), nhưng chất lượng đầu ra vẫn cực kỳ ấn tượng.

"Images 2.0 mang đến mức độ chi tiết và độ trung thực chưa từng có trong việc tạo ảnh. Nó không chỉ khái niệm hóa những hình ảnh phức tạp mà còn tuân thủ chặt chẽ các chỉ thị, giữ nguyên các chi tiết được yêu cầu và hiển thị chính xác các yếu tố nhỏ như: văn bản, biểu tượng (iconography), thành phần UI, bố cục dày đặc ở độ phân giải lên tới 2K," trích thông cáo báo chí của OpenAI.

Thời gian ra mắt và cách truy cập

Với những khả năng đồ sộ này, việc tạo ảnh sẽ mất nhiều thời gian hơn một chút so với việc gõ câu hỏi thông thường cho ChatGPT. Dù vậy, để tạo ra một tác phẩm phức tạp như truyện tranh nhiều khung hình cũng chỉ mất vài phút.

Tất cả người dùng ChatGPT và Codex sẽ có thể truy cập Images 2.0 bắt đầu từ thứ Ba; người dùng trả phí sẽ được sử dụng các tính năng nâng cao hơn. OpenAI cũng sẽ cung cấp API gpt-image-2 cho các nhà phát triển, với mức giá phụ thuộc vào chất lượng và độ phân giải của sản phẩm đầu ra.

ChatGPT Images 2.0: Bước Đột Phá Bất Ngờ Về Khả Năng Tạo Văn Bản Trong Ảnh

Từ "thảm họa" chính tả đến độ chính xác kinh ngạc

Tại sao AI tạo ảnh trước đây lại "kém tắm" trong việc viết chữ?

Sức mạnh "Tư duy" của ChatGPT Images 2.0

Hỗ trợ đa ngôn ngữ và độ phân giải 2K

Thời gian ra mắt và cách truy cập

Đừng bỏ lỡ tin AI mới nhất

ChatGPT Images 2.0: Bước Đột Phá Bất Ngờ Về Khả Năng Tạo Văn Bản Trong Ảnh

Từ "thảm họa" chính tả đến độ chính xác kinh ngạc

Tại sao AI tạo ảnh trước đây lại "kém tắm" trong việc viết chữ?

Sức mạnh "Tư duy" của ChatGPT Images 2.0

Hỗ trợ đa ngôn ngữ và độ phân giải 2K

Thời gian ra mắt và cách truy cập

Đừng bỏ lỡ tin AI mới nhất

Kết nối trên mạng xã hội