본문 바로가기
[paper] ImageBind : One Embedding Space To Bine Them All Meta 2023 AI at Meta, 2023년 기술 회고 GitHub - facebookresearch/ImageBind: ImageBind One Embedding Space to Bind Them All 초록 6가지 모달리티에 대해서 임베딩을 join 할 수 있는 모델 이미지, 텍스트, 오디오, 깊이, thermal, IMU data IMU : inertial measurement unit 물체가 기울어진 각도를 측정하기 위한 관성 측정 장치 오로지 이미지와 연결된 데이터만 있다면 (6가지 다 없어도) 훈련할 수 있는 모델 1. 서론 하나의 이미지를 볼 때 우리는 많은 경험과 연결지어 생각할 수 있다. 예컨대 해변을 볼 때, 파도의 소리 / 모래의 감촉 / 산들 바람 / 시를 부르는 영감을 얻을 .. 2024. 3. 25.
이미지 생성 모델 (2024. 02) Stable cascade Stable Cascade - a Hugging Face Space by multimodalart 효율성에 대한 Stable Cascade의 초점은 아키텍처와 더 높은 압축 잠재 공간을 통해 입증됩니다. Stable Diffusion XL보다 14억 개 더 많은 매개변수를 포함하는 가장 큰 모델에도 불구하고 아래 그림에서 볼 수 있듯이 여전히 더 빠른 추론 시간을 제공합니다. GUI Stable Diffusion - Regional Prompt Koala ETRI, '달리'보다 5배 빠른 이미지 생성 모델 공개 달리보다 5배 빠른 이미지 생성 모델이 나왔다고 해요..!마침 허깅페이스에 등록되어 있어서 사용해보았습니다. 모델 : koala-700m GPU : 마티스.. 2024. 2. 27.
[기록] OCR 변환한 한글을 DB 내 가까운 결과로 반환하기 1. 배경 텍스트를 포함한 이미지(실시간 혹은 사진)에 나온 내용을 DB와 가장 가까운 결과로 반환하고자 한다. 2. 문제 OCR 결과가 이상하게 나오는 경우가 존재 정확하지 않은 문장도 찾을 수 있게 만들고 싶다. 3. 해결 초안 : word2vec을 이용하여 문맥상 가장 가까운 결과 도출 처음에는 한글 단어를 벡터화 하여 거리를 계산하는 방식을 사용하려고 했다. [과정] 이미지에서 OCR을 이용해 텍스트 변환. 특수문자, 영문이 포함된 잘못 나타난 결과를 전처리 (정규식 사용하여 특수문자 제거, 조사와 어미 등은 뒤에 띄어쓰기를 더하여 올바른 형태에 가까운 문장으로 변형.) 한글 단어를 벡터화 하기위해서 kor2vec(https://github.com/naver/kor2vec) 사용하고자 함 훈련이 .. 2023. 12. 7.
XAI (eXplainable AI) 개념 요약 설명가능한 AI 머신러닝/딥러닝 모델의 결과값에 대한 이유를 인간이 이해할 수 있도록 블랙박스 성향을 분해하고 파악해 설명 가능하도록 하는 방법 (출처1, 출처2, 출처3) 머신러닝과 AI를 사용하면서 AI가 어떻게 의사결정을 내리는지 이해할 필요성이 커져가고 있다. 일명 XAI라고 불리는 ‘설명 가능한 AI’는 AI 모델이 특정 결정을 내린 원인과 그 작동 원리를 사람들이 쉽게 파악할 수 있도록 기관이 사용하는 도구와 기술 세트를 의미한다. 더보기 설명의 필요성 예시 AI는 탁월한 성능으로 우리의 일상 속으로 금방 들어올 것 같았지만 Black Box 구조 탓에 AI의 상용화는 순탄하지 않다. A은행이 최근 신용 대출 가능 여부를 판단하는 AI를 도입했다고 하자. 고객 B씨가 A은행에 대출 신청했는데 .. 2023. 9. 8.
TensorFlow Lite를 이용한 기기 내 대규모 언어모델 탑재 실습 git clone keras nlp $ pip install -q git+https://github.com/keras-team/keras-nlp.git@google-io-2023 tensorflow-text==2.12 사전학습된 GPT-2 모델과 글 생성하기 import keras_nlp gpt2_tokenizer = keras_nlp.models.GPT2Tokenizer.from_preset("gpt2_base_en") gpt2_preprocessor = keras_nlp.models.GPT2CausalLMPreprocessor.from_preset( "gpt2_base_en", sequence_length=256, add_end_token=True, ) gpt2_lm = keras_nlp.models.. 2023. 9. 3.
[Paper] CLIP : Learning Transferable Visual Models From Natural Language Supervision (2021) 📖 Alec Radford, Jong Wook Kim, et al. Learning Transferable Visual Models From Natural Language Supervision, 2021. 0. 요약 기존 연구 미리 결정된 객체를 예측하도록 훈련 CLIP이 기존 연구와 다른 점 이미지에 대한 원시 텍스트 학습을 통해서 더 광범위하게 학습함. 인터넷으로 수집한 4억 쌍의 이미지-텍스트 데이터 세트로 훈련 사전 훈련 후 다운스트림 작업 가능 zero-shot transfer 모델은 대부분의 Task에 non-trivially하게 transfer 특수한 데이터 셋으로 훈련하지 않아도 지도학습과도 경쟁력있는 성능 1. Introduction and Motivating Work text-to-te.. 2023. 9. 3.
[Paper] A Neural Representation of Sketch Drawings (2017) 📖 David Ha, Douglas Eck. A Neural Representation of Sketch Drawings, 2017. [참고] 인공 신경망의 하위 구성 배경 Quick Draw!는 사람이 그린 그림이 무엇인지 인공지능이 맞히는 게임이다. 구글은 이를 통해서 공개 데이터셋을 구축했다. Sketch-RNN은 퀵드로우 데이터를 바탕으로 사람들이 그린 순서로 그림을 학습해 그리는 과정을 예측할 수 있는 모델이다. 목표 사람이 그리는 것과 비슷하게 추상적인 개념을 일반화하여 그릴 수 있도록 기계를 훈련시키는 것 데이터 사람이 직접 그린 스케치의 과정으로 학습 펜을 어느 방향으로 움직였는지 언제 펜을 종이에서 띄었는지 언제 멈추었는지 모델 구성 구조 sequence-to-sequence (seq2s.. 2023. 8. 28.
[Papaer] OFA : Language-Image pretraining model (2022) 0. 요약 과업 상관없이 적용 가능한 멀티 모달 프레임워크 image generation, visual grounding, image captioning, image classification, language modeling, etc. 사전 학습과 파인 튜닝이 동시에 진행됨 적은 데이터로도 높은 훈련 성능 1. 소개 “Pretrain-Finetuning” 패러다임 제시 한번에 ~처음부터 끝까지~ 하기 위한 조건 Task-Agnostic Modality-Agnostic Task Comprehensiveness 현재 언어 및 멀티모달 사전 훈련된 모델은 다음과 같은 설계로 인해 이러한 특성의 일부에서 쉽게 실패한다 Extra learnable components for finetuning : 모델마다 헤드.. 2023. 8. 28.
[NLP] Negative Log Likelihood 1. Likelihood Likelihood = 가능도 = 우도 = 특정 사건들이 일어날 가능성 = 샘플들과 확률분포의 일관된 정도 연속 사건 내에서 특정 확률은 0이다 (예를들면 0~1 값 중 0.001이 나올 확률 = 1/무한대 = 0) → 연속확률 내에서의 지정 가능한 확률 확률분포 내 Likelihood 연속확률 확률 = x1과 x2 사이의 넓이 가능도 = f(x1|θ) * f(x2|θ) = f(x1|μ,σ) * f(x2|μ,σ) 이산확률 확률 = p(x1|θ) * p(x2|θ) 가능도 = p(x1|θ) * p(x2|θ) 2. Log Loss Negative log 함수에 넣어서 변환을 시키면 확률이 1일 때 : -log(1.0) = 0 확률이 0.8일 때 : -log(0.8) = 0.22314 .. 2023. 8. 28.
728x90