Computer Vision 썸네일형 리스트형 Single Shot Text Detector with Regional Attention Single Shot Text Detector with Regional Attention 한줄요약 multi scale feature와 attention module을 활용해서 Text region과 같이 ambiguous하고 varying한 object를 잘 찾아보자 ICCV 2017 spotlight세션에서 발표했다. 내용은 그닥 복잡하지 않다. multi-scale을 다루기 위해, 기본적으로 inception module을 사용했고 거기에 더해 여러 개의 inception module을 aggregation했다. 그리고 Text region과 같이 localization을 정확히 잡기가 힘든 object를 잘 찾기 위해 attention module을 사용했다. 전체적은 framework는 아래와 .. 더보기 Chained Cascade Network for Object Detection Chained Cascade Network for Object Detection 한줄요약 CNN에서 Cascade 구조를 이용할 수 있도록 Framework를 설계해보자. Cascade는 object detection에서 아주 좋은 구조이다. 일반적인 CNN network도 shallow하게 구성해서 여러개를 만들면 cascade형태로 만들 수 있다. 여기에서는 하나의 networks에서 이러한 cascade 구조를 가질 수 있도록 설계한 것을 제안하고 있다. 전체적인 구조는 아래와 같다. 여기서는 base network로 BN-Net이라는 것을 사용했는데, 그게 뭔지는 잘 모르겠지만, inception module을 사용하는 network이다. 그리고 여기서는 하나의 inception module을 각.. 더보기 Pixel Recursive Super Resolution Pixel Recursive Super Resolution 한줄요약 GAN처럼 다루기 힘든 intractable generative model이 아닌, tractable generative model(PixelCNN)을 super resoltuion에 적용해봤다. 구글 브레인에서 나온 논문이라, 수식이 조금 복잡하고 자꾸 어려운 말로 개념을 설명해서 읽으면서 참 곤란(?)했다. 일단 풀고자하는 문제는 super resolution인데, 이 문제를 확률 모델로 끌어오면서 pixel간의 dependency를 고려한 multi modal 문제로 이걸 다루어야 한다고 실험을 통해 주장한다. 일단 super resolution 문제를 probabilistic하게 바라보면 eq(1)처럼 fomulation을 할 수.. 더보기 Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields https://arxiv.org/pdf/1611.08050.pdf http://image-net.org/challenges/talks/2016/Multi-person%20pose%20estimation-CMU.pdf (slides) Human Pose estimation문제를 다룬 논문이고, Demo영상이 유명해서 아마 이미 읽어보신분들도 꽤 있을 것 같아요. CMU의 로보틱스 그룹에서 낸 논문인데, 같은 그룹의 Convolutional Pose Machine(CPM)이라는 Framework를 CVPR 2016에서 발표했었고, 당시 Human pose estimation에서는 SOTA.. 더보기 DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling 한줄요약 RPN을 학습시키거나, one-stage detector를 만들때 anchor 설계를 잘해줘야 하는데, anchor 설계같은 engineering 없이 b.box도 per-pixel classification으로 구하겠다 b.box의 각 꼭지점들도 classification으로 풀어서 쓰겠다. 즉, segmentation 처럼 per-pixel로 classification해서 박스의 꼭지점을 찾아서 proposal box를 뽑겠다. eq(1)에서 나오듯 그냥 naive 베이시언 확률로 박스에 오브젝트가 존재할 확률을 정의. 학습은 다 jointly하게 진행함. eq(.. 더보기 Amulet: Aggregation Multi-level Convolutional Features for Salient Object Detection Amulet: Aggregation Multi-level Convolutional Features for Salient Object Detection 한줄요약 Multi-scale의 정보를 학습으로 잘 합쳐서 Salient Object Detection을 잘 해보겠다. CNN에서 Multi-scale을 어떻게 다루면 좋을지는 아직 확실한 방법이 없는 상태. 여기선 모든 Scale의 feature를 혼합하여서 학습을 통해 알아서 잘 되기를 바라는게 큰 의미에서의 접근방법. 어떻게 합칠건지, 좋은 inference 결과를 얻기위해 어떻게 각 scale간의 정보를 주고받을건지도 제안함 Salient Object Detection이라는 일반적인 object detection과 달리 image에 하나의 objec.. 더보기 Prediction Deeper into the Future of Semantic Segmentation Prediction Deeper into the Future of Semantic Segmentation 한줄요약 ~겁나 어려운 문제 우리가 들고와봤어~ FAIR의 논문. 일반적인 Segmentation을 넘어서서 sequential frame을 input으로 받고 다음 frame 혹은 저~멀리 frame을 prediction하는 문제를 새로 제안함. CNN으로 미래를 예측하겠다! 제안하는 문제는 아래 그림과 같음 segmentation을 하긴 하는데 관측되지 않은(미래의) frame을 segmentation한 결과를 뽑아내겠다. 허허.. 자율주행에 필요한 기술이라고 주장 SOTA 모델로 Dilation10이라는 모델을 가져옴. 이걸 가져와서 여러형태로 만들어봄. rgb만 받고 다음 rgb 예측하는거, .. 더보기 No more Discrimination : Cross City Adaptation of Road Scene Segmenters No more Discrimination : Cross City Adaptation of Road Scene Segmenters 한줄요약 Domain Adversarial Adaptation(DANN)으로 Segmentation문제에서 Domain Adaptation을 풀어보았다. Adaptation을 위해서 Latent space에서 Source와 Target간의 차이를 줄이도록 Adversarial하게 학습 시킴. 풀고자하는 문제는 Road scene segmentation 문제인데, segmentation에서는 항상 annotation data를 얻기가 힘드니깐, 이미 존재하는 dataset의 annotation을 이용해서 domain adaptation(unsupervised way)으로 segm.. 더보기 HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis 한줄요약 Attention module을 multi-scale level에서 각각 뽑아내서 이걸 하나로 잘 합쳐서 comprehensive attention module을 구하는 방법을 제안함 기존의 CNN에서 attention module이라고 하면, conv. filter에 반응하는 영역으로, 주어진 task를 해결하기 위해 discriminative한 영역에 모델이 주의를 기울이게 되는 모듈을 의미함. 예를 들어, 개와 고양이를 검출하는 검출기의 attention module을 살펴보면 동물의 얼굴에 attention이 집중되는 현상을 확인할 수 있음. 이러한 attention을 comp.. 더보기 [Object Detection] Soft-NMS -- Improving Object Detection With One Line of Code ICCV 2017에 아래와 같은 논문이 발표되었었는데요. Soft-NMS -- Improving Object Detection With One Line of Code https://arxiv.org/abs/1704.04503 자극적인 제목이라, 레딧에선 욕도 좀 먹은 것 같은데요ㅎㅎ 읽어보니 저는 내용이 참 괜찮았었어요. 그래서 지금 진행중인 프로젝트에 적용을 해보았는데, 약 1%의 성능 향상이 있었어요. 양날의 검이 아닌, 이득을 볼 확률이 매우 높은 방법처럼 보여서 기존의 NMS를 거의 대체하게 되지 않을까싶네요. p.s 중복이면 죄송합니다^^; 기존 Hard NMS를 거의 대체하게 될 것 같음. 더보기 이전 1 2 다음