Vai trò của các công cụ giám sát hệ thống (observability tools) đang bước sang một trang mới. Nếu như trước đây, mục tiêu chính là "theo dõi mọi thứ", thì nay trọng tâm đã chuyển sang "kiểm soát độ phức tạp và chi phí". Đặc biệt, sự bùng nổ của các tác tử AI (AI agents) trong doanh nghiệp đã tạo ra một khối lượng công việc khổng lồ mới cần được giám sát chặt chẽ.
Đặc biệt, trong bối cảnh các công ty đang ồ ạt tích hợp các mô hình ngôn ngữ lớn — tiêu biểu như những đột phá lập trình và bảo mật AI gần đây — khối lượng công việc và độ phức tạp của hệ thống càng tăng vọt. InsightFinder AI, một startup được xây dựng từ 15 năm nghiên cứu học thuật, chính là câu trả lời cho bài toán hóc búa này.
InsightFinder: Từ nghiên cứu học thuật đến thương vụ 15 triệu USD
Từ năm 2016, InsightFinder đã ứng dụng học máy (Machine Learning) để theo dõi, chẩn đoán và chủ động khắc phục các sự cố hạ tầng IT. Giờ đây, công ty đang mở rộng tấn công vào vấn đề độ tin cậy của các mô hình AI với một giải pháp toàn diện: từ phát hiện, chẩn đoán đến khắc phục và phòng ngừa lỗi.
Được sáng lập bởi CEO Helen Gu — Giáo sư khoa học máy tính tại Đại học North Carolina State, từng làm việc tại IBM và Google — InsightFinder vừa huy động thành công 15 triệu USD trong vòng gọi vốn Series B do Yu Galaxy dẫn đầu.
Lỗi không chỉ ở AI, mà ở cả hệ thống
Theo bà Gu, thách thức lớn nhất hiện nay không chỉ là việc theo dõi xem mô hình AI sai ở đâu, mà là chẩn đoán toàn bộ hệ thống công nghệ đang hoạt động ra sao khi có sự can thiệp của AI.
"Để chẩn đoán các vấn đề của AI, bạn phải giám sát đồng thời dữ liệu, mô hình và cả hạ tầng (infrastructure). Sự cố không phải lúc nào cũng do dữ liệu hay mô hình; đôi khi nguyên nhân lại nằm ngay ở cơ sở hạ tầng của bạn," bà Gu chia sẻ.
Một ví dụ thực tế: Một công ty thẻ tín dụng lớn tại Mỹ (khách hàng của InsightFinder) phát hiện mô hình chống gian lận của họ bị lệch chuẩn (model drift). Nhờ giám sát toàn bộ hạ tầng, InsightFinder đã chỉ ra nguyên nhân không nằm ở AI, mà do bộ nhớ đệm (cache) trên một số node máy chủ bị lỗi thời.
Nền tảng "Autonomous Reliability Insights"
Sản phẩm mới nhất của InsightFinder mang tên Autonomous Reliability Insights, kết hợp hàng loạt công nghệ lõi:
- Học máy không giám sát (Unsupervised ML)
- Các mô hình ngôn ngữ lớn và nhỏ (LLMs & SLMs) độc quyền
- AI dự đoán (Predictive AI)
- Suy luận nhân quả (Causal inference)
Hệ thống này hoàn toàn độc lập với nguồn dữ liệu, cho phép hấp thụ toàn bộ luồng thông tin để thu thập tín hiệu, từ đó đối chiếu và tìm ra nguyên nhân gốc rễ của sự cố.
Lợi thế cạnh tranh và Tương lai (Bài học cho doanh nghiệp Việt)
Dù thị trường đang chật chội với những ông lớn như Datadog, Dynatrace hay New Relic, InsightFinder vẫn tự tin với lợi thế am hiểu sâu sắc cả hai mảng: Hệ thống và AI.
"Rất nhiều nhà khoa học dữ liệu hiểu về AI nhưng mù mờ về hệ thống. Ngược lại, kỹ sư SRE (Site Reliability Engineering) hiểu hệ thống nhưng không hiểu AI. InsightFinder chính là cầu nối cho khoảng trống đó."
Thực tế, doanh thu của công ty đã tăng gấp 3 lần trong năm qua với tập khách hàng khủng như Dell, Google Cloud, UBS. Nguồn vốn mới sẽ được dùng để mở rộng đội ngũ bán hàng và marketing.
Góc nhìn chuyên gia: Đối với các doanh nghiệp Việt Nam đang rục rịch chuyển đổi số và ứng dụng AI, câu chuyện của InsightFinder là một lời cảnh tỉnh. Đừng chỉ tập trung vào việc tạo ra những câu lệnh (prompt) hay mô hình AI xuất sắc. Việc thiết lập một hệ thống giám sát hạ tầng đồng bộ chính là chìa khóa để AI hoạt động ổn định, tránh những "cái chết bất đắc kỳ tử" gây thiệt hại kinh tế nghiêm trọng.