Nghiên cứu của MediaX thúc đẩy công nghệ drone với OWL-ViT và SAHI

09/04/2024

Trong nghiên cứu này, chúng tôi khảo sát các phương pháp nâng cao hiệu năng phát hiện đối tượng cho các vật thể nhỏ và vừa trong ảnh chụp từ trên không — một thách thức phổ biến trong các ứng dụng drone tự hành. Chúng tôi nghiên cứu kết hợp OWL-ViT — một mô hình transformer thị giác với khả năng nhận diện từ vựng mở mạnh mẽ — và SAHI, một framework hỗ trợ suy luận siêu cắt. Kết quả thí nghiệm cho thấy cải thiện đáng kể hiệu năng khi áp dụng cách tiếp cận kết hợp này.

OWL-ViT và SAHI DEMO

Bối cảnh & Động lực

Phát hiện đối tượng trong ảnh chụp trên không thường gặp giảm hiệu năng đối với các vật thể nhỏ và vừa do che khuất, biến đổi tỷ lệ và nhiễu nền. Các mạng nơ-ron tích chập truyền thống gặp khó khăn trong việc duy trì khả năng biểu diễn trên các tỷ lệ khác nhau. Sự phát triển gần đây của các mô hình nhận diện từ vựng mở như OWL-ViT cho thấy tiềm năng trong việc nhận diện và định vị các loại đối tượng đa dạng hơn ngoài các nhãn cố định.

Phương pháp nghiên cứu

OWL-ViT

OWL-ViT là một mô hình transformer thị giác có khả năng phát hiện đối tượng với từ vựng mở. Nó kết hợp kiến trúc ViT làm backbone với các đầu phân loại hỗ trợ tập nhãn linh hoạt.

SAHI

SAHI (Slicing Aided Hyper Inference) là một framework cắt ảnh lớn thành các mảnh chồng chéo và gộp dự đoán để tăng cường phát hiện cho các vật thể nhỏ.

DEMO SAHI

Thí nghiệm & Kết quả

Chúng tôi đánh giá cách kết hợp OWL-ViT + SAHI trên các bộ dữ liệu ảnh chụp trên không chứa xe cộ và các vật thể ngoài trời. Kết quả cho thấy cách tiếp cận này cải thiện hiệu năng phát hiện thành công, đặc biệt đối với các vật thể nhỏ và vừa mà mô hình truyền thống gặp khó khăn. Điều này củng cố tiềm năng của các kỹ thuật nhận diện từ vựng mở và dựa trên phân mảnh cho các nhiệm vụ nhận thức drone trong thế giới thực.

Công việc tương lai

Hướng nghiên cứu tiếp theo bao gồm tích hợp các mạng backbone tiên tiến hơn và khảo sát ngữ cảnh thời gian cho nhận thức trên ảnh/video chụp từ trên không. Chúng tôi kỳ vọng những cải tiến này sẽ nâng cao hơn nữa hiệu năng cho hệ thống nhận thức drone.

OWL-ViT và SAHI DEMO