Computer Vision

Prediction Deeper into the Future of Semantic Segmentation

DoDo&ToTo 2018. 4. 2. 14:10

Prediction Deeper into the Future of Semantic Segmentation


한줄요약

~겁나 어려운 문제 우리가 들고와봤어~ FAIR의 논문. 일반적인 Segmentation을 넘어서서 sequential frame을 input으로 받고 다음 frame 혹은 저~멀리 frame을 prediction하는 문제를 새로 제안함. CNN으로 미래를 예측하겠다!


제안하는 문제는 아래 그림과 같음


segmentation을 하긴 하는데 관측되지 않은(미래의) frame을 segmentation한 결과를 뽑아내겠다. 허허..
자율주행에 필요한 기술이라고 주장

SOTA 모델로 Dilation10이라는 모델을 가져옴.


이걸 가져와서 여러형태로 만들어봄. rgb만 받고 다음 rgb 예측하는거, segmentation만 받고 다음 segmentation 예측하는거, 혹은 둘다 받고 하나만 예측하는거 등등.. 총 5개 만듬 X2X, S2S, XS2X, XS2S, XS2XS
loss는 pixel-wise(l1 loss)와 주변 pixel도 같이보는 grad loss의 joint로 정의 eq(1)

모델 구조는 아래 처럼 만듬


Cityscape데이터셋으로 실험해봄
미래예측을 3단계로 나눔.
short-term : 바로 다음 frame
mid-term : 0.5초 뒤의 미래
long-term : 10초 뒤의 미래

short-term 예측 결과


여기서 copy last input은 말그대로 그냥 예측 안하고 직전 frame을 그대로 사용한거, warp는 optical flow를 이용해서 warping을 좀 한거

PSNR과 SSIM은 이미지 pixel의 유사도를 측정(rgb image). SSIM이 1에 가까울수록 좋은거.
Segmentation의 결과는 mean IoU로 측정함.

Mid-term은 inpu으로 2, 5, 8, 11번째 frame을 입력으로 받고 14, 17, 20번째 frame을 예측함.
결과는 Table 3, 4에(optical flow 의외로 조금 동작되지만, 역시 멀리 내다볼수록 학습한 모델이 조금 더 좋음)

Long-term은 input으로 1초 가량의 영상을 넣고, 10초 앞의 미래를 예측함.
결과는 아래 그림 참고


윗쪽 줄이 gt, 아래가 prediction 결과


그냥 SOTA 모델 들고와도 우리가 정의한 문제 못풀어라고 말하고싶음.

얼마나 많은 사람들이 이 문제를 풀어볼려고 달려들지 궁금함.