- 하나의 conv layer 당 input image의 채널 개수만큼 필터가 존재 (32 x 32 x 3 -> n x n x 3 filter)
- 각 채널에 대해 필터를 적용하여 conv layer의 출력 이미지가 생성
- filter의 개수만큼 conv layer를 통과한 activation maps의 depth가 결정됨
2) stride
- 설정한 stride 값 만큼 필터가 image의 픽셀을 계산하는 간격을 설정
- stride 값이 클수록 ouput의 가로 x 세로 크기는 줄어든다.
- 효율적인 특성 추출을 위해 stride를 사용 -> 매우 세세하게 적용하기 보다 전체적인 특징을 파악하기 위해 사용
우리가 사진이나 그림을 볼 때, 한 부분씩 돋보기를 써서 어떤 그림인지 파악하는 것보다 전체적인 모습을 훑는 것과 비슷한 개념
3) zero-padding
- conv layer를 통과할 수록 volume은 작아지게 되고 이미지 가장 자리의 특성들이 사라지는 것을 방지
4) calculate volume size
Dilated convolutions
- 필터 내부에 zero padding을 추가해 전체적인 특징을 잡아내기 위해 사용 (without pooling) - 기존의 pooling은 정보 손실이 일어날 수 있는데 이를 해결하기 위함 - pooling을 수행하지 않아 spatial 손실이 적고 대부분의 weight가 0이어서 연산 효율이 좋다. - 공간적 특징을 유지하는 특성으로 segmentation에서 많이 사용된다.
출처 : https://3months.tistory.com/213
POOL layer
- spatial size를 줄임으로써 parameter 개수를 줄일 수 있어 연산 속도와 과적합 방지에 도움
- 이미지의 인접 pixel 간의 유사도가 매우 높아 local에서 대표값을 선정한다는 아이디어를 담은 것이다.