Nâng cao tìm kiếm hình ảnh tương đồng bằng hệ thống embedding AI và truy xuất hình ảnh

09/01/2026 | Doan Thai, MediaX

Tại MediaX, tôi tập trung vào nghiên cứu và phát triển các hệ thống AI có khả năng mở rộng, ổn định và ứng dụng cao trong các tình huống thực tế. Trong nghiên cứu này, tôi thiết kế và đánh giá một hệ thống tìm kiếm hình ảnh tương đồng sử dụng AI dựa trên các mô hình embedding hình ảnh, nhằm phục vụ các trường hợp như tra cứu sản phẩm, kiểm tra hình ảnh và hỗ trợ vận hành thông minh.

Tổng quan hệ thống

Hệ thống được xây dựng dựa trên kiến trúc embedding hình ảnh + tìm kiếm vector, trong đó mỗi ảnh sản phẩm được chuyển đổi thành một vector đặc trưng nhiều chiều đại diện cho đặc điểm hình ảnh của nó. Các vector này được lưu trữ và truy vấn hiệu quả bằng cơ sở dữ liệu vector, giúp truy xuất nhanh các ảnh tương đồng về mặt thị giác.

Tôi sử dụng mô hình CLIP (Contrastive Language–Image Pretraining) với kiến trúc mã hoá hình ảnh để tạo embedding ảnh, kết hợp với ChromaDB để lưu trữ và tìm kiếm tương đồng. Metadata sản phẩm được quản lý song song bằng MongoDB, đảm bảo tính mở rộng và tích hợp liền mạch với hạ tầng backend hiện có.

Thiết lập thí nghiệm

Bộ dữ liệu hình ảnh được tổ chức thành các nhóm sản phẩm (Nike, Adidas, Converse), đóng vai trò làm nhãn tham chiếu trong quá trình đánh giá. Với mỗi ảnh gốc, nhiều phiên bản được tạo ra—bao gồm xoay, lật, điều chỉnh màu sắc và biến đổi ánh sáng—để mô phỏng các biến đổi hình ảnh thực tế thường gặp.

Các ảnh được tăng cường này được sử dụng làm truy vấn, trong khi cơ sở dữ liệu vector chỉ chứa ảnh gốc. Mục tiêu đánh giá là đo khả năng hệ thống truy xuất đúng ảnh gốc tương ứng ở vị trí top-1, từ đó đánh giá độ ổn định và độ bền của biểu diễn embedding dưới các nhiễu hình ảnh.

Kết quả đánh giá

Độ ổn định truy xuất (Độ chính xác truy xuất tự động Top-1 với hình ảnh tăng cường)

Việc đánh giá được thực hiện trên một tập con gồm 700 ảnh sản phẩm gốc, được lấy mẫu đồng đều trên ba thương hiệu (Nike, Adidas, Converse). Với mỗi ảnh gốc, năm biến thể tăng cường được tạo ra bằng các phép biến đổi như lật ngang, xoay, thay đổi màu sắc và thay đổi ánh sáng, tạo thành tổng cộng 3.500 ảnh truy vấn tăng cường.

Các ảnh tăng cường này được sử dụng làm truy vấn, trong khi cơ sở dữ liệu vector chỉ chứa ảnh gốc. Truy xuất được xem là chính xác nếu kết quả top-1 khớp đúng ảnh gốc tương ứng, từ đó đo lường độ bền của hệ thống dưới các nhiễu hình ảnh.

Hệ thống đạt được độ chính xác truy xuất cao nhất quán trên tất cả các nhóm sản phẩm:

  • Nike: ~0,97
  • Adidas: ~0,97
  • Converse: ~0,96

Những kết quả này chứng tỏ rằng mô hình embedding duy trì khả năng bảo tồn danh tính hình ảnh mạnh mẽ, ngay cả khi ảnh đầu vào trải qua các biến đổi hình ảnh thường gặp như lật, thay đổi màu sắc và ánh sáng.

Phân tích sai số

Tất cả các trường hợp truy xuất thất bại được ghi lại bằng cách lưu cả ảnh gốc và các phiên bản ảnh tăng cường tương ứng. Phân tích những lỗi này cho thấy nguyên nhân chính của việc thất bại là do:

  • các biến đổi quá mạnh làm mất các đặc trưng hình ảnh quan trọng
  • độ tương đồng thị giác cực cao giữa các mẫu sản phẩm khác nhau
  • nhiễu màu hoặc biến dạng độ tương phản làm giảm khả năng phân biệt đặc trưng tại chỗ

Hình ảnh ví dụ có kết quả tìm kiếm không chính xác:

Ví dụ truy xuất không chính xác với giày dép tương tự Ví dụ truy xuất không chính xác với sản phẩm nằm phẳng Ví dụ truy xuất không chính xác với sneaker phản chiếu

Thảo luận và công việc tương lai

Kết quả thí nghiệm cho thấy hệ thống tìm kiếm hình ảnh AI của MediaX bền vững, có khả năng tổng quát tốt và phù hợp với các nhiệm vụ truy xuất hình ảnh trong thế giới thực. Tuy nhiên, một số hướng cải tiến đã được xác định.

Một cải tiến tiềm năng là tích hợp mô hình phát hiện đối tượng như YOLO để thực hiện định vị đối tượng tự động và cắt trước khi tạo embedding. Bằng cách tách vùng sản phẩm chính và giảm nhiễu nền, phương pháp này được kỳ vọng sẽ cải thiện tính nhất quán của embedding và độ chính xác truy xuất, đặc biệt trong các tình huống có nền phức tạp hoặc điều kiện chụp khác nhau.

Các cải tiến tương lai khác bao gồm:

  • tinh chỉnh các chiến lược tăng cường để cân bằng tốt hơn giữa độ bền và bảo toàn các đặc trưng hình ảnh quan trọng
  • đánh giá các mô hình embedding có độ phân giải cao hơn hoặc biểu đạt phong phú hơn để nắm bắt các chi tiết tinh vi
  • kết hợp thêm các tín hiệu metadata (ví dụ: thương hiệu, danh mục, thuộc tính) để xếp hạng lại và phân biệt kết quả

Trong các giai đoạn tiếp theo, nghiên cứu này sẽ được mở rộng theo hướng đo lường độ bền trong các điều kiện thị giác đa dạng, phân tích tương đồng chi tiết và tối ưu hiệu năng toàn diện cho môi trường sản xuất, với mục tiêu cung cấp giải pháp tìm kiếm hình ảnh có thể mở rộng và đáng tin cậy.

Nghiên cứu này là một phần trong chiến lược rộng lớn hơn của MediaX nhằm phát triển các giải pháp AI thị giác máy tính thực tế, có thể mở rộng, nhằm xây dựng các hệ thống thông minh có khả năng ứng dụng và tác động lâu dài.

Tìm hiểu thêm về nghiên cứu của chúng tôi.