Computer Vision

DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling

DoDo&ToTo 2018. 4. 2. 14:11

DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling


한줄요약

RPN을 학습시키거나, one-stage detector를 만들때 anchor 설계를 잘해줘야 하는데, anchor 설계같은 engineering 없이 b.box도 per-pixel classification으로 구하겠다


b.box의 각 꼭지점들도 classification으로 풀어서 쓰겠다. 즉, segmentation 처럼 per-pixel로 classification해서 박스의 꼭지점을 찾아서 proposal box를 뽑겠다.
eq(1)에서 나오듯 그냥 naive 베이시언 확률로 박스에 오브젝트가 존재할 확률을 정의.
학습은 다 jointly하게 진행함. eq(2)
당연히 b.box의 위치를 찾아야되므로 deconv layer를 사용함.
해도 너무하는 것 아니냐는 생각이 들었지만, 또 생각해보면 될수도 있겠단 생각이 듬. (확 와닿진 않음)
3.2에 나오지만 sampling도 그냥 brute-force 비슷하게 함.
table 7을 보면 IoU threshold가 증가할 수록 다른 방법들에 비해 b.boX를 상대적으로 더 잘 구함. 그러나 일반적인 0.5 기준에선 성능이 딸림.
다른 테이블도 보면 뭐, 되긴 됨. 이정도로 되는구나 싶기도함.