Unsupervised Feature Learning for Pedestrian Detection

crossing-300x222

Đã lâu không để ý đến bài toán pedestrian detection, mình vẫn còn tưởng HoG + SVM đang làm trùm, và Navneet Dalal thì đang sung sướng ở Google (!). Vừa rồi tình cờ lướt qua paper này của nhóm Yann LeCun (CVPR 2013) thì mới thấy state-of-the-art đã thay đổi đáng kể. Trong paper này, LeCun dùng convolutional net (với các layer dc pretraining bằng convolutional sparse auto-encoder) thì giảm AUC xuống còn 10% trên tập INRIA persons, tức là chỉ còn bằng 1/3 so với ~30% của HoG + SVM.

Tuy nhiên convolutional net của LeCun chưa phải là trùm trong task này. Kết quả tốt nhất thuộc về paper này (CVPR 2012) với hệ thống tên là VeryFast. Điều thú vị là cách tiếp cận của VeryFast hoàn toàn thủ công, với các hand-crafted features và boosted classifier. LeCun giải thích là vì INRIA persons vẫn còn hơi nhỏ nên các phương pháp feature learning tỏ ra không hiệu quả.

Liên quan đến kích thước của dữ liệu, Caltech-101 cũng khá nổi tiếng là không tốt cho các phương pháp unsupervised feature learning. Các mô hình deep learning đều tỏ ra kém hiệu quả trên dataset này. Trong talk này (trong một workshop khá “elite” năm 2011), Yann LeCun có “càm ràm” là sử dụng một convolutional net nhỏ cho Caltech-101 đạt được khoảng 71% nhưng bị reject ở CVPR, ICCV etc… Talk này cũng khá thú vị khi Yann ra sức “xài xể” cách làm thủ công để “tôn vinh” feature learning, đồng thời có nhắc đến nhiều mô hình khá mới trong deep learning.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s