Spatial-temporal pooling for action recognition in videos (2021) 리뷰
리뷰했던 GCNet과 같이 input video frame간의 차이가 매우 연속적이기 때문에 비디오 상 object 간의 특징을 잘 나타내는 frame을 추출하는 방법을 제시한 논문이다. 별, 삼각형, 사각형이 essential frames이고 그 외의 원형이 noise frames이라고 생각한다. (A)에서는 noise frames이 essential frames을 추출하는데 방해가 되는 것을 시각적으로 표현했다. 그래서 (B)와 같이 noise frames을 제외하거나 weight을 적게 주어 essential한 frames을 추출하는 것이 목표이다. 저자는 이 개념을 위의 그림과 함께 표현했다. frame간의 상관관계를 분석하기 위해 특정 frame(1, 12, 24, 36)을 추출하여 visual..