temporal relational reasoning은 사람이 이전, 현재 상태와의 관계 추론을 통해 행동을 인지하거나 미래를 예측하는 것을 의미한다.
TRN은 비디오 프레임으로부터 시간적 관계를 추론하는 것이 목적인 네트워크 구조이다. module 방식이어서 network에 삽입하는 방식으로 적용이 가능하다.
해당 논문의 저자가 inspired한 relation network이다. visual question answering에서 이를 적용한 방식이 있었다. 수식을 살펴보자면 이미지 내의 각각의 object간의 관계를 추론하기 위한 방법이다. function f, g 모두 MLP를 사용하여 이해하기 어렵지 않다.
위에서 나온 방식처럼 이미지 상의 물체 간의 관계에서 동영상 프레임 간의 관계로 확장시켰다.
일종의 앙상블 방식으로도 적용이 가능하다.
설명이 매우 간결하고 전체적인 architecture를 파악하기 위해서는 저자의 깃허브를 참조했어야 했다. 어떻게 저런 네트워크 구조가 작동하는지에 대해 자세한 원리, 원인에 대한 설명이 없어서 아쉽다.
ref.