SMART Frame Selection for Action Recognition (2020) 리뷰

지난 논문과 유사하게 복수의 프레임으로 구성된 비디오 데이터에서 중요한 프레임만을 선별하여 최종 학습 시에 사용할 수 있도록 하는 연구이다.

Introduction은 논문의 주제가 비슷하면 대게 같은 말을 반복한다. 다만, 해당 논문에서는 특이하게 language feature를 feature matrix에 삽입하여 학습을 시켰다.

관련 연구로는 대표적으로 2가지가 있다. frame selection에서는 대게 강화학습을 사용하였다. 하지만, frame 간의 유사도가 떨어지는 단점이 있었다. 또한, attention을 적용한 방법이 있는데 지속적으로 발전해오고 있다.

SMART frame selection을 사용하면 전체 computational cost 중 일부만을 사용할 수 있기 때문에 classification 단계에서 무거운 model을 사용하여 정확도를 올릴 수 있다고 한다.

Frame의 중요도에 대한 score를 산정할 때, two stream 방식을 사용한다. 첫번째는 위에서 나온 강화학습을 사용한 방식과 유사하게 각각의 frame에 대한 점수를 산정한다. 두번째는 전체 frame을 한번에 고려하는 방식으로 attention and relational network를 사용한다.

MobileNet을 사용하여 각 frame의 feature를 처음에 추출해낸다. MobileNet을 사용하면 연산속도에서 큰 이점이 있다.

그리고 앞서 말했던 방식으로 이미지와 관련된 단어 즉 language feature를 frame에 포함시킨다.

frame을 다른 frame과 concatenation하여 두 개의 frame을 잇는다. 이때, random choice를 가능하게 하여 다른 classes에서 시간적 변화에 유연하도록 한다. global selector는 attention과 relation model로 각각 구성되어 있다.

attention module에서 Z' (frame feature)가 global representation을 갖도록 한다.

SFS만을 사용했을 때, GS만을 사용한 것보다 결과값이 좋았다. frame간의 상관관계 보다 single frame에 대한 MLP의 성능이 더 중요한 것 같다.

frame의 수가 일정 부분이상 증가하면 optimized되는 것이 신기했다.

ref.

https://arxiv.org/abs/2012.10671

'AI > Paper' 카테고리의 다른 글

U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection (2020) 리뷰 (0)	2021.05.31
Pyramid Feature Attention Network for Saliency detection (2019) 리뷰 (0)	2021.05.25
Spatial-temporal pooling for action recognition in videos (2021) 리뷰 (0)	2021.05.18
GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond (2019) 리뷰 (1)	2021.05.17
ViViT: A Video Vision Transformer (2021) 리뷰 (0)	2021.05.03

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

날아가는 개발자