Nâng cao kiểm tra hình ảnh với GLASS: Mô hình phát hiện bất thường dựa trên Encoder

Tháng 04/2025 | Nhóm Nghiên cứu MediaX

Tại MediaX, chúng tôi liên tục thử nghiệm các mô hình AI có khả năng mở rộng và tổng quát hoá tốt. Một trong những nghiên cứu gần đây của chúng tôi là ứng dụng framework GLASS — Generalizable Local Anomaly Segmentor — để phát hiện và phân đoạn các bất thường thị giác trên bộ dữ liệu hình ảnh. Kết quả đánh giá cho thấy hiệu năng rất hứa hẹn cho các ứng dụng thực tế.

Framework

GLASS là mô hình học sâu tiên tiến được thiết kế cho bài toán phân đoạn bất thường. Mô hình kết hợp kiến trúc dựa trên encoder mạnh mẽ với cơ chế học đặc trưng cục bộ để phát hiện các lỗi nhỏ và bất thường trong bối cảnh nền phức tạp.

Chúng tôi huấn luyện mô hình trên bộ dữ liệu nội bộ MediaX Encoder Dataset, sử dụng Colab và các shell script tuỳ biến để chạy và xuất kết quả. Quá trình huấn luyện và đánh giá được thực hiện bằng runner mặc định của GLASS, đồng thời tích hợp với pipeline dữ liệu tuỳ chỉnh của chúng tôi.

Điểm nổi bật về hiệu năng

Phát hiện ở mức ảnh (Image-level)

  • AUROC: 100.0
  • Độ chính xác trung bình (AP): 100.0

Điều này cho thấy khả năng phân loại hoàn hảo giữa ảnh bình thường và ảnh bất thường.

Định vị ở mức điểm ảnh (Pixel-level)

  • AUROC: 96.99
  • Độ chính xác trung bình: 19.19
  • PRO (Chồng chéo theo vùng): 95.03

Mặc dù mô hình định vị vùng bất thường rất hiệu quả (AUROC/PRO cao), nhưng AP thấp hơn cho thấy mô hình có thể nhạy với nhiễu nhẹ hoặc bị phân đoạn quá mức — đây là điểm chúng tôi đang tích cực cải thiện.

Nâng cao kiểm tra hình ảnh với GLASS: Mô hình phát hiện bất thường dựa trên Encoder

Tác động và bước tiếp theo

Nghiên cứu này xác thực hiệu quả của GLASS cho bài toán kiểm tra hình ảnh ở cấp độ công nghiệp. Chúng tôi sẽ tiếp tục tối ưu độ chính xác ở mức điểm ảnh và triển khai framework này cho nhiều lĩnh vực hơn như sản xuất, logistics và giám sát thông minh.

Để theo dõi các nghiên cứu AI mới nhất, hãy truy cập trang Nghiên cứu của MediaX.