'AI' 카테고리의 글 목록 (2 Page)

Spatial-temporal pooling for action recognition in videos (2021) 리뷰

리뷰했던 GCNet과 같이 input video frame간의 차이가 매우 연속적이기 때문에 비디오 상 object 간의 특징을 잘 나타내는 frame을 추출하는 방법을 제시한 논문이다. 별, 삼각형, 사각형이 essential frames이고 그 외의 원형이 noise frames이라고 생각한다. (A)에서는 noise frames이 essential frames을 추출하는데 방해가 되는 것을 시각적으로 표현했다. 그래서 (B)와 같이 noise frames을 제외하거나 weight을 적게 주어 essential한 frames을 추출하는 것이 목표이다. 저자는 이 개념을 위의 그림과 함께 표현했다. frame간의 상관관계를 분석하기 위해 특정 frame(1, 12, 24, 36)을 추출하여 visual..

AI/Paper 2021. 5. 18. 17:37

GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond (2019) 리뷰

논문 세미나 발표자료 video일 경우, model을 통과하면서 long-range에 대한 정보를 획득할 수 있어야 한다. 기존에 공개된 non-local network가 self-attention mechanism을 사용하여 1개의 layer로 이를 수행했다. 해당 논문의 저자는 기존의 non-local module의 문제점을 발견하고 이를 개선하는 block을 제시했다. non-local block의 작용을 시각화와 통계적 분석을 통해 효용성을 검사하였다. 통계 분석은 각 extracted feature vector간의 평균 거리를 계산해 discriminate한 information을 뽑아냈는지 실험했다. 위의 표에서 볼 수 있듯이 non-local block을 통과한 후 추출된 feature ve..

AI/Paper 2021. 5. 17. 16:35

ViViT: A Video Vision Transformer (2021) 리뷰

Abstract video classification을 위한 pure-transformer based models을 제시했다. input video로부터 spatio-temporal tokens을 추출하고 연속된 transformer layers로 encoding한다. 학습 시 효율적으로 model를 regularise하는 방법으로 기존의 ViT와는 반대로 작은 dataset에서도 좋은 성능을 낼 수 있었다고 한다. 현재 몇몇 benchmarks에서 SOTA인 모델이다. Introduction NLP 분야에서 transformer의 등장 이후 매우 빠른 발전을 보여주었고 현재 대부분의 sota모델은 transformer에서 파생되었다고 볼 수 있다. 이는 multi-headed self-attention..

AI/Paper 2021. 5. 3. 20:04

Video Transformer Network (2021) 리뷰

Transformer를 사용해 video classification을 하는 논문을 찾다가 나왔다. 특별한 내용이 없는 논문 --> 간략하게 설명 Abstract transformer base의 video recognition을 위한 VTN (Video Transformer Network)을 제안했다. 기존의 방식으로 3D CNN이 가장 많이 제시되었다. NLP 분야에서 유명한 transformer를 적용하여 whole video analysis를 single end-to-end pass로 recognition을 실시했다. Kinetics-400 dataset를 사용하였고 ablation study, accuracy & inference speed trade-off를 실험했다. Introduction vi..

AI/Paper 2021. 4. 30. 15:30

MoViNets: Mobile Video Networks for Efficient Video Recognition (2021) 리뷰

Abstract 3D CNN은 video recognition에서 뛰어난 성능을 보여주지만 배로 늘어나는 parameter 수에 의해 연산속도가 매우 느리다. 따라서 대부분의 기존 모델은 gpu 사용을 하고 있으며 실시간으로 on-device processing이 불가능했다. 하지만 해당 논문에서는 3가지의 방법 제시를 통해 높은 정확도와 연산 효율을 얻을 수 있었다고 한다. - video network search space - stream buffer technique - simple ensembling technique Introduction 3D CNN을 활용한 모델 (e.g. temporal convolution, non-local blocks, etc.)은 한번에 모든 input frames를..

AI/Paper 2021. 4. 26. 20:08

Squeeze-and-Excitation Networks (2018) 리뷰

Abstract SENet은 2017년 ILSVRC에서 우승을 차지한 모델이다. 여기서 Squeeze-and-Excitation (SE) block을 제시하였다. 이를 사용하여 채널 간의 상호 관계를 모델링하면서 channel-wise feature를 조정할 수 있다. 어떤 모델에도 적용할 수 있으며 성능을 향상시키면서 parameter의 수가 많이 늘지 않기 때문에 연산량의 증가가 크지 않다. Introduction CNN network에서 conv filter는 local receptive fields에서 spatial과 channel-wise information을 합쳐 이웃 픽셀 간의 상호 연관성을 학습한다. non-linear activation function이나 downsampling ope..

AI/Paper 2021. 4. 20. 21:24

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset (2017)

Abstract 2017년에 나온 논문으로 action recognition에 대한 동향을 알 수 있는 논문이다. 해당 논문에서는 새로운 dataset인 Kinetics Human Action Video를 공개하였다. 해당 dataset은 400개의 action class와 각 class별로 400개 이상의 비디오가 포함되어 있다. 그리고 당시까지 나와있던 architecture들을 소개하고 two-stream inflated 3D ConvNet (I3D)를 제시하였다. 각 architecture별로 dataset에 대한 accuracy를 비교하는 내용이 주를 이룬다. Action Classification Architectures 참고 : ImageNet pre-trained ConvNet을 사용 Co..

AI/Paper 2021. 4. 18. 18:12

Skeleton Aware Multi-modal Sign Language Recognition (2021)

Dataset CVPR에서 실시한 sign language recognition 대회에서 98% 정답률로 1등을 차지한 모델의 논문이다. 해당 대회 데이터셋에서는 Microsoft Kinect v2 (xbox video)로 촬영하여 RGB, Depth 데이터를 가지고 있다. 43명의 signer가 226개의 signs를 보이고 있으며 36,302개의 비디오 샘플이다. 또한, 20개의 다른 배경에서 촬영하였다. Abstract skeleton-based action recognition이 배경, 주체 변화에 독립적인 적용이 가능해서 크게 주목 받고 있다. 그래서 Skeleton Aware Multi-modal SLR (SAM-SLR)을 제시하였다. 특히, Sign Language Graph Convolut..

AI/Paper 2021. 4. 13. 20:49

Graph Convolutional Network (GCN)

Graph 1) 개요 node와 edge로 이루어진 구조를 그래프라고 한다. 이를 활용하여 데이터 간의 관계성이 크고 중요한 데이터를 효과적으로 나타낼 수 있다. 페이스북의 친구관계, 분자구조, 바이러스 감염자 간의 관계 등이 대표적인 예이다. edge는 단순히 연결하는 것에 그치지 않고 방향성(directed, undirected)과 가중치(weighted, unweighted)를 활용하여 추가적인 정보를 가지기도 한다. 2) 그래프 데이터의 구조 그래프 데이터는 vertex (node) set와 edge set로 구성되며 다음의 총 4가지 요소들로 나타낼 수 있다. - node-feature matrix (n x f) : 각 노드에 해당되는 feature 정보를 가지고 있는 matrix로 featur..

AI/Deep Learning 2021. 4. 12. 18:19

Camera

Camera 1) Pin-hole camera - Pin-hole camera model is a widely used camera model in computer vision. - It collects light through a small hole to the inside of dark box or room. - Light passes through a single point, the camera center, C, before it is projected onto an image plane. 2) Lens camera - Lenses map bundles of rays from points on the scene to the sensor. 3) Common feature - only use cent..

AI/Computer Vision 2021. 4. 8. 15:43

날아가는 개발자

AI 검색 결과