ComfyUI, một startup chuyên cung cấp giải pháp giúp các nhà sáng tạo kiểm soát đầu ra hình ảnh, video và âm thanh từ các mô hình khuếch tán (diffusion models) thông qua giao diện dạng lưới (node-based), vừa huy động thành công 30 triệu USD. Vòng gọi vốn này đã đẩy mức định giá của công ty lên con số ấn tượng: 500 triệu USD.
Vòng gọi vốn được dẫn dắt bởi quỹ Craft Ventures, cùng sự tham gia của hàng loạt nhà đầu tư lớn khác như Pace Capital, Chemistry và TruArrow.
1. Từ dự án mã nguồn mở đến startup nửa tỷ đô
ComfyUI bắt đầu hành trình của mình như một dự án mã nguồn mở vào năm 2023, ngay sau sự xuất hiện của các mô hình khuếch tán đầu tiên. Vào thời điểm đó, các công cụ đình đám như Midjourney hay DALL-E của OpenAI vẫn còn khá sơ khai và thường xuyên mắc các lỗi cơ bản, điển hình là việc tạo ra những bàn tay có... 6 ngón.
Để giải quyết hạn chế này, những nhà sáng lập ComfyUI đã phát triển một khung làm việc dạng module (modular framework). Hệ thống này cho phép người dùng can thiệp và kiểm soát chi tiết đến từng bước nhỏ nhất trong quá trình AI tạo ra sản phẩm.
Công cụ này nhanh chóng tạo nên một cơn sốt trong cộng đồng chuyên gia sáng tạo, từ đó chính thức chuyển mình thành một startup thực thụ. Vào cuối năm 2024, ComfyUI đã gọi vốn thành công 19 triệu USD ở vòng Series A từ các nhà đầu tư như Chemistry Ventures, Cursor Capital và Guillermo Rauch (nhà sáng lập Vercel).
2. Giải quyết bài toán "Cỗ máy đánh bạc" của AI truyền thống
Mặc dù các mô hình AI tạo ảnh hiện nay đã tiến bộ vượt bậc, nhu cầu về độ chính xác tuyệt đối mà ComfyUI mang lại vẫn không ngừng tăng cao. Điều này đặc biệt đúng với các agency quảng cáo và studio thiết kế tại Việt Nam cũng như trên thế giới, nơi mà tính đồng bộ thương hiệu (brand guideline) là yếu tố sống còn.
"Nếu bạn sử dụng các giải pháp dựa trên câu lệnh (prompt) thông thường như Midjourney hay ChatGPT, bạn chỉ có thể đạt được 60% – 80% kết quả mong muốn," Yoland Yan, Đồng sáng lập kiêm CEO của ComfyUI, chia sẻ với TechCrunch. "Nhưng để thay đổi 20% còn lại, bạn phải chơi một trò chơi may rủi như máy đánh bạc (slot machine)."
Yan giải thích rằng việc thêm một câu lệnh nhỏ để chỉnh sửa chi tiết có thể khiến AI tạo ra một bức ảnh hoàn toàn khác, phá hỏng luôn cả những chi tiết đã hoàn hảo trước đó. Giao diện node-based của ComfyUI khắc phục triệt để điều này bằng cách cho phép người dùng kết nối các thành phần cụ thể, làm chủ hoàn toàn chất lượng đầu ra.
3. Cuộc đua hạ tầng AI và tầm quan trọng của các công cụ vi mô
Trong khi thế giới công nghệ đang chứng kiến những thương vụ khổng lồ ở tầng vĩ mô, chẳng hạn như cuộc đua hạ tầng AI với việc Google đầu tư 4 tỷ USD vào Anthropic, thì ở tầng ứng dụng thực tế, các công cụ như ComfyUI lại đóng vai trò là "cây cầu" kết nối sức mạnh siêu máy tính với nhu cầu tinh chỉnh tinh tế của con người.
4. Sự bùng nổ của nghề "Nghệ sĩ ComfyUI"
Những lợi ích vượt trội đã thu hút hơn 4 triệu người dùng đến với ComfyUI. Công cụ này hiện đang được ứng dụng mạnh mẽ trong nhiều lĩnh vực: hiệu ứng hình ảnh (VFX), hoạt hình, sản xuất video quảng cáo và thiết kế công nghiệp.
Startup này cho biết nền tảng của họ đã trở nên thiết yếu đối với các nghệ sĩ kỹ thuật số đến mức chức danh "ComfyUI Artist" hay "ComfyUI Engineer" xuất hiện ngày càng nhiều trên các bản tin tuyển dụng của các studio lớn.
5. Tương lai: Sự kết hợp hoàn hảo giữa Con người và AI
Dù các mô hình tảng (foundational models) về video và hình ảnh vẫn đang tiến hóa từng ngày, CEO Yoland Yan khẳng định chúng khó có thể đạt tới sự hoàn hảo tuyệt đối nếu thiếu vắng bàn tay con người. Các đối thủ cạnh tranh như Weavy (đã bị Figma mua lại năm ngoái) cũng chứng minh sức hút của thị trường ngách này.
"Trong một thế giới mà các sản phẩm AI đại trà (AI slop) sẽ tràn ngập khắp nơi, phương pháp tiếp cận có sự tham gia sâu của con người (human-in-the-loop) như cách ComfyUI đang làm, cuối cùng sẽ chiến thắng và giành được sự chú ý của khán giả," ông Yan kết luận.