본문 바로가기
AI/비전

[SEGMENTATION] DeepLab v2 | 2016

by 박서현 2021. 8. 3.

0DeepLab v1 논문 리뷰 바로가기

DeepLab v2 논문 바로가기

 

1. 서론

2. v1과 차이점

3. Performance

 

1. 서론

DeepLab v1은 VGG-16을 기반으로 atrous convolution, fully-connected CRF, multi-scale processing을 적용해 시멘틱 세그멘테이션하는 알고리즘이었다. v2에서는 v1과 달리 DCNN 모델을 ResNet-101을 사용하고 다양한 스케일을 처리하기 위해 Atrous Spatial Pyramid Pooling(ASPP)을 이용했다. 본 글에서는 v2의 변화에 대해 소개하도록 하겠다.

 

2. v1과 차이점

2.1 ResNet-101

DeepLab v1에서는 VGG-16을 사용했지만, v2로 넘어오면서 ResNet-101로 백본 모델을 바꿨다.

 

2.2 Atrous Spatial Pyramid Pooling

DeepLab v1에서도 다양한 스케일의 객체를 세그멘테이션하는 성능을 높이기 위해 DCNN의 중간 특징맵을 이용했다. v2에서는 원본 이미지의 스케일을 다양하게 조절해 한꺼번에 학습·추론하는 image pyramid 방법과 rate를 여러 개 사용해 atrous convolution한 결과를 합치는 Atrous Spatial Pyramid Pooling(ASPP) 방법을 소개한다. ASPP는 R-CNN의 Spatial Pyramid Pooling에서 영감을 받았다고 한다. DeepLab 팀은 두 방법 중 계산 비용이 적은 ASPP를 이용했다.

그림 1 Atrous Spatial Pyramid Pooling. 출처 : [1]
그림 2 Atrous Spatial Pyramid Pooling. 출처 : [1]

ASPP를 적용하면 다양한 rate의 atrous convolution을 이용해 동일한 특징맵을 여러 가지 스케일로 계산한다. 그림 1과 같이 필터 사이즈가 3x3으로 동일해도 rate를 6, 12, 18, 24로 설정하면 하나의 입력 특징맵에서 각기 다른 스케일로 계산한 4개의 결과 특징맵을 추출한다. 이 때 패딩 사이즈를 조절해 입력 특징맵과 4개의 결과 특징맵은 모두 동일한 사이즈로 만든다. 이후에는 그림 2의 Fc7, FC8처럼 각 특징맵을 1x1 convolution 층에 두번 통과 시키고 element-wise로 합을 구한다.

 

3. Performance

ASPP

그림 3 ASPP를 이용한 세그멘테이션 결과 비교. 출처 : [1]

그림 3은 크기가 다른 오토바이의 세그멘테이션을 할 때 ASPP가 얼마나 효과적인지 보여준다. (b) LargeFOV는 그림 2와 같이 ASPP를 사용하지 않고 rate를 12로 atrous convolution한 모델, (c) ASPP-S는 rate를 2, 4, 8, 12로 설정한 모델, (d) ASPP-L은 rate를 6, 12, 18, 24로 설정한 모델이다. ASPP를 이용하고 rate를 크게할 수록 다양한 스케일의 객체 세그멘테이션 성능이 좋아지는 것을 확인할 수 있다.

 

VGG-16 vs ResNet-101

그림 4 VGG-16과 ResNet-101의 Trimap mIOU 비교. 출처 : [1]
그림 5 VGG-16과 ResNet-101의 세그멘테이션 결과 비교

 

Other SOTA Models

 

Failure

그림 6 세그멘테이션 성능이 안좋은 경우. 출처 : [1]

DeepLab v2 논문에서는 그림 6을 제시하며 제안한 모델이 자전거, 의자와 같이 얇은 형상에 대한 세그멘테이션 성능이 떨어진다고 밝혔다. 그리고 인코더-디코더 구조를 이용하면 해결할 수 있을 것으로 예상하며 논문을 마무리한다.

 

 

Reference

[1] Liang-Chieh ChenGeorge PapandreouIasonas KokkinosKevin MurphyAlan L. Yuille. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. In IEEE, 2016