Smart Mining for Deep Metric Learning (2017) 리뷰 triplet loss를 사용하여 학습시키는 방법의 경우 학습 대상이 되는 데이터 선택이 중요하다. 위의 이미지에서 볼 수 있듯이 anchor와 가까운 negative와 먼 positive간의 거리를 계산하여 positive를 가깝게 negative를 멀게 만들어 준다. 하지만 random choice 또는 해당 anchor에 대해 모든 positive (same label)가 anchor와 이미 가깝다면 loss 값은 0이 되어 불필요한 연산을 하게 되는 것이다. 기존의 triplet loss와 각각의 anchor, pos, neg의 feature를 통합한 global loss를 합쳤다. 그리고 smart sampling 방식을 이용해 low computational complexity에도 위에서 언급.. AI/Paper 4년 전
Temporal Relational Reasoning in Videos (2018) 리뷰 temporal relational reasoning은 사람이 이전, 현재 상태와의 관계 추론을 통해 행동을 인지하거나 미래를 예측하는 것을 의미한다. TRN은 비디오 프레임으로부터 시간적 관계를 추론하는 것이 목적인 네트워크 구조이다. module 방식이어서 network에 삽입하는 방식으로 적용이 가능하다. 해당 논문의 저자가 inspired한 relation network이다. visual question answering에서 이를 적용한 방식이 있었다. 수식을 살펴보자면 이미지 내의 각각의 object간의 관계를 추론하기 위한 방법이다. function f, g 모두 MLP를 사용하여 이해하기 어렵지 않다. 위에서 나온 방식처럼 이미지 상의 물체 간의 관계에서 동영상 프레임 간의 관계로 확장시켰다.. AI/Paper 4년 전
Hierarchical Video Frame Sequence Representation with Deep Convolutional Graph Network (2018) 리뷰 video classification은 긴 frame feature를 어떤 식으로 modeling하는 것이 가장 중요한 작업이다. long sequence를 처리하는데 LSTM, GRU 등과 같이 RNN 계열의 모델이 CNN 보다는 효과적이다. 저자는 graph 기반으로 frame feature sequence를 모델링하는 방법을 제시하였다. frames과 장면 간의 복잡한 관계를 정립하고 계층적으로 semantic abstraction을 실시하여 video classificiation을 실시하였다. target이 되는 input data는 timestamps별로 각기 다른 관점? 장면을 가지고 있다. 위의 예시에서 볼 수 있듯이 label은 'cooking show' 이지만 관객, 음식 등과 같이 단일.. AI/Paper 4년 전
Unsupervised Learning of Video Representations via Dense Trajectory Clustering (2020) 리뷰 해당 논문은 크게 세 부분으로 나뉘어 있다. video instance recognition, video local aggregation, IDT이다. "Unsupervised Feature Learning via Non-Parametric Instance Discrimination" 논문에서 제시된 방법으로 unsupervised learning에서 input data를 각각의 개별적인 class로 두는 것이다. local aggregation은 encoded input data를 k-menas clustering을 통해 판별하는데 이때 non-parametric loss를 사용한다. 그리고 EM framework를 사용해 각각의 데이터를 대표하는 가우시안 분포를 찾아낸다. 하지만 3D ConvNet의.. AI/Paper 4년 전
Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks (2021) 리뷰 self-attention은 하나의 샘플의 각각의 다른 위치로부터 features를 합하여 각 position을 강조하는 방법이다. 하지만 location의 개수에 따라 제곱으로 computational complexity가 증가한다. 그리고 다른 샘플을 고려하지 않는다는 단점이 있다. 왼쪽은 기존의 self-attention diagram이고 우측은 저자가 제시하는 방법이다. external attention을 사용함으로써 사용 memory가 적어지고 데이터셋 내의 데이터 간의 공유가 가능하여 regularization role을 하기도 한다. ref. https://arxiv.org/abs/2105.02358 AI/Paper 4년 전
Continuous Sign Language Recognition through a Context-Aware Generative Adversarial Network (2021) 리뷰 temporal boundary가 없는 continuous sign language recognition에서는 spatial-temporal visual feature를 추출하는데 집중되어 왔다. 또한, GAN의 아이디어인 generator와 discriminator 개념을 적용한 시도가 지금까지 없었고 이를 적용해 보았다고 한다. 각각의 대략적인 역할을 살펴보면 generator는 시공간 정보를 추출해 수화를 인식한다. generator로부터 예측된 값의 quality를 discriminator는 문장, 단어 수준으로 modeling하여 평가한다. 또한, 문맥적 정보를 추가하기 위해 이전 문장의 hidden state값을 generator의 LSTM memory module에 주입한다. generato.. AI/Paper 4년 전
Combination of Multiple Global Descriptors for Image Retrieval (2020) 리뷰 convolution layer를 통과한 이후 fully connected layer를 global descriptor로 사용한 후 차원 축소하는 방식 있다. 또한, 마지막 convolution layer의 activations으로부터 생성하는 방식도 있다. 이를 이용해 image retrieval을 위해 유사한 이미지를 찾아내는 것이다. 성능 향상을 위해 ensemble 기법이 많이 사용되고 있는데 기존의 ensemble 기법은 각 learners를 독립적으로 학습시키기 때문에 연산량이 과한 단점이 있다. 따라서 해당 논문의 저자는 multiple global descriptor를 combination하는 방식으로 end-to-end 방식으로 학습하였고 sota 성능의 모델을 만들었다고 한다. deep.. AI/Paper 4년 전
U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection (2020) 리뷰 기존의 salient detection은 CNN backbone network 사용하여 이미지의 특징을 추출해낸다. 이 방법은 local detail이나 global information을 추출하기 보다 semantic meaning에 조금 더 집중한다. 그래서 저자는 CNN을 사용하지 않고 새로운 network를 구성했다. 기존의 network에 module을 추가하면 과하게 복잡해지고 그에 따라 memory consumption과 computational cost가 높아진다. 그래서 저자는 높은 해상도의 feature map을 유지할 수 있도록 충분히 깊은 네트워크와 낮은 computation cost를 얻을 수 있었다고 한다. RSU는 intra-stage multi-scale features를 찾.. AI/Paper 4년 전
Pyramid Feature Attention Network for Saliency detection (2019) 리뷰 saliency detection을 통해 이미지 상에서 중요한 부분만을 골라낼 수 있다. 이를 통해 object detection, segmentation 등 다양한 vision task에 효과적으로 적용할 수 있다. 하지만 기존의 방법으로 크게 두 가지가 있는데 각각의 문제점들을 해결했다고 한다. 논문에서 deep layer는 어떻고 shallow layer는 어떻고 등 같은 말을 매우 많이 반복한 것으로 보아 이를 해결한 것을 강조했다. SIFT의 개념을 차용해 scale과 shape에서 불변한 특성을 가질 수 있도록 하였다. 특징적으로는 dilated convolution을 사용하였고 서로 다른 conv층을 통과한 feature들로 pyramid feature extraction을 실시했다. SIF.. AI/Paper 4년 전
SMART Frame Selection for Action Recognition (2020) 리뷰 지난 논문과 유사하게 복수의 프레임으로 구성된 비디오 데이터에서 중요한 프레임만을 선별하여 최종 학습 시에 사용할 수 있도록 하는 연구이다. Introduction은 논문의 주제가 비슷하면 대게 같은 말을 반복한다. 다만, 해당 논문에서는 특이하게 language feature를 feature matrix에 삽입하여 학습을 시켰다. 관련 연구로는 대표적으로 2가지가 있다. frame selection에서는 대게 강화학습을 사용하였다. 하지만, frame 간의 유사도가 떨어지는 단점이 있었다. 또한, attention을 적용한 방법이 있는데 지속적으로 발전해오고 있다. SMART frame selection을 사용하면 전체 computational cost 중 일부만을 사용할 수 있기 때문에 classif.. AI/Paper 4년 전