Paper reading
- [multi-modal] Image, Text pair models Multimodal Learning Audio, Video, Image, Text 등 다중 형태의 데이터를 모델의 입력으로 사용 단일 형태 데이터(모달)의 한계를 극복하고자 여러 형태의 데이터를 사용해 주어진 문제를 해결하는 모델을 구축 왜 멀티모달이 필요할까? → 인간이 멀티모달이니까 (맥거크 효과) https://www.youtube.com/watch?v=PWGeUztTkRA multimodal deep learing 각 모달에 적합한 딥러닝 구조를 사용해 특징 추출 모달 통합 방식으로는 대표적으로 Feature concatenation, Ensemble classifier 두 가지 방법이 존재 (a) ex. 이미지는 CNN, 텍스트는 RNN을 사용해 피쳐 벡터를 추출해 결합해 사용하는 방법 (b) ..
- [Paper] CLIP : Learning Transferable Visual Models From Natural Language Supervision (2021) 📖 Alec Radford, Jong Wook Kim, et al. Learning Transferable Visual Models From Natural Language Supervision, 2021. 0. 요약 기존 연구 미리 결정된 객체를 예측하도록 훈련 CLIP이 기존 연구와 다른 점 이미지에 대한 원시 텍스트 학습을 통해서 더 광범위하게 학습함. 인터넷으로 수집한 4억 쌍의 이미지-텍스트 데이터 세트로 훈련 사전 훈련 후 다운스트림 작업 가능 zero-shot transfer 모델은 대부분의 Task에 non-trivially하게 transfer 특수한 데이터 셋으로 훈련하지 않아도 지도학습과도 경쟁력있는 성능 1. Introduction and Motivating Work text-to-te..
- [paper] ImageBind : One Embedding Space To Bine Them All Meta 2023 AI at Meta, 2023년 기술 회고 GitHub - facebookresearch/ImageBind: ImageBind One Embedding Space to Bind Them All 초록 6가지 모달리티에 대해서 임베딩을 join 할 수 있는 모델 이미지, 텍스트, 오디오, 깊이, thermal, IMU data IMU : inertial measurement unit 물체가 기울어진 각도를 측정하기 위한 관성 측정 장치 오로지 이미지와 연결된 데이터만 있다면 (6가지 다 없어도) 훈련할 수 있는 모델 1. 서론 하나의 이미지를 볼 때 우리는 많은 경험과 연결지어 생각할 수 있다. 예컨대 해변을 볼 때, 파도의 소리 / 모래의 감촉 / 산들 바람 / 시를 부르는 영감을 얻을 ..
- [Papaer] OFA : Language-Image pretraining model (2022) 0. 요약 과업 상관없이 적용 가능한 멀티 모달 프레임워크 image generation, visual grounding, image captioning, image classification, language modeling, etc. 사전 학습과 파인 튜닝이 동시에 진행됨 적은 데이터로도 높은 훈련 성능 1. 소개 “Pretrain-Finetuning” 패러다임 제시 한번에 ~처음부터 끝까지~ 하기 위한 조건 Task-Agnostic Modality-Agnostic Task Comprehensiveness 현재 언어 및 멀티모달 사전 훈련된 모델은 다음과 같은 설계로 인해 이러한 특성의 일부에서 쉽게 실패한다 Extra learnable components for finetuning : 모델마다 헤드..
- [Paper] A Neural Representation of Sketch Drawings (2017) 📖 David Ha, Douglas Eck. A Neural Representation of Sketch Drawings, 2017. [참고] 인공 신경망의 하위 구성 배경 Quick Draw!는 사람이 그린 그림이 무엇인지 인공지능이 맞히는 게임이다. 구글은 이를 통해서 공개 데이터셋을 구축했다. Sketch-RNN은 퀵드로우 데이터를 바탕으로 사람들이 그린 순서로 그림을 학습해 그리는 과정을 예측할 수 있는 모델이다. 목표 사람이 그리는 것과 비슷하게 추상적인 개념을 일반화하여 그릴 수 있도록 기계를 훈련시키는 것 데이터 사람이 직접 그린 스케치의 과정으로 학습 펜을 어느 방향으로 움직였는지 언제 펜을 종이에서 띄었는지 언제 멈추었는지 모델 구성 구조 sequence-to-sequence (seq2s..
독후감
728x90