본문 바로가기
<데이터 파이프라인 핵심 가이드> 02 최신 데이터 인프라 데이터 소스의 다양성 데이터 수집 도구 클라우드 데이터 웨어하우스와 데이터 레이크 모델링 도구 및 프레임워크 워크플로 오케스트레이션 플랫폼 소스 시스템 소유권 어디서 소스 시스템을 가지고 오는지에 따라 데이터 가용 범위가 달라짐 수집 인터페이스 및 데이터 구조 수집 인터페이스 Postgres, MySQL DB와 같은 애플리케이션 뒤 데이터베이스 REST API와 같은 시스템 상단의 추상화 계층 Apache Kafka같은 스트림 처리 플랫폼 로그, 쉼표로 구분된 값 (csv) 파일 및 기타 플랫 파일을 포함하는 공유 네트워크 파일시스템 또는 클라우드 스토리지 버킷 데이터 웨어하우스 또는 데이터 레이크 HDFS 또는 HBase 데이터베이스의 데이터 데이터 구조 REST API의 Json MySQL DB의 데.. 2024. 4. 1.
[paper] ImageBind : One Embedding Space To Bine Them All Meta 2023 AI at Meta, 2023년 기술 회고 GitHub - facebookresearch/ImageBind: ImageBind One Embedding Space to Bind Them All 초록 6가지 모달리티에 대해서 임베딩을 join 할 수 있는 모델 이미지, 텍스트, 오디오, 깊이, thermal, IMU data IMU : inertial measurement unit 물체가 기울어진 각도를 측정하기 위한 관성 측정 장치 오로지 이미지와 연결된 데이터만 있다면 (6가지 다 없어도) 훈련할 수 있는 모델 1. 서론 하나의 이미지를 볼 때 우리는 많은 경험과 연결지어 생각할 수 있다. 예컨대 해변을 볼 때, 파도의 소리 / 모래의 감촉 / 산들 바람 / 시를 부르는 영감을 얻을 .. 2024. 3. 25.
[LLM] 프롬프트 엔지니어링 제로 샷 프롬프트 LLM 자체 능력 의존 퓨샷 프롬프트 패턴을 포함하는 예시 제공 후 실제 질문 역할 부여 (Priming) 페르소나 규정 당신은 ~(역할) 입니다. ~(요청) 메타 프롬프트 프롬프트를 만드는 프롬프트. 개선을 반복적으로 요청하는 프로세스 체인 프롬프트 이전 대화를 기반으로 요약, 메타 프롬프트, 응답, 요약의 순서로 대화를 지속적 발전 주의 사항 프롬프트가 1000개의 토큰을 초과하는 경우, 프롬프트 중간에 있는 정보를 손실할 수 있음. 그래서 컨텍스트 크기를 최소화하고 프롬프트의 시작과 끝 부분에 가장 중요한 정보와 지침을 배치해야 함. 대화 기억 대화 메모리가 필요함. 원시 형태로 저장하는 것이 가장 간단하지만 대화가 길어질수록 토큰을 많이 사용하기 때문에, 느려지고/컨텍스트 스터핑.. 2024. 3. 18.
이미지 생성 모델 (2024. 02) Stable cascade Stable Cascade - a Hugging Face Space by multimodalart 효율성에 대한 Stable Cascade의 초점은 아키텍처와 더 높은 압축 잠재 공간을 통해 입증됩니다. Stable Diffusion XL보다 14억 개 더 많은 매개변수를 포함하는 가장 큰 모델에도 불구하고 아래 그림에서 볼 수 있듯이 여전히 더 빠른 추론 시간을 제공합니다. GUI Stable Diffusion - Regional Prompt Koala ETRI, &#39;달리&#39;보다 5배 빠른 이미지 생성 모델 공개 달리보다 5배 빠른 이미지 생성 모델이 나왔다고 해요..!마침 허깅페이스에 등록되어 있어서 사용해보았습니다. 모델 : koala-700m GPU : 마티스.. 2024. 2. 27.
[기록] OCR 변환한 한글을 DB 내 가까운 결과로 반환하기 1. 배경 텍스트를 포함한 이미지(실시간 혹은 사진)에 나온 내용을 DB와 가장 가까운 결과로 반환하고자 한다. 2. 문제 OCR 결과가 이상하게 나오는 경우가 존재 정확하지 않은 문장도 찾을 수 있게 만들고 싶다. 3. 해결 초안 : word2vec을 이용하여 문맥상 가장 가까운 결과 도출 처음에는 한글 단어를 벡터화 하여 거리를 계산하는 방식을 사용하려고 했다. [과정] 이미지에서 OCR을 이용해 텍스트 변환. 특수문자, 영문이 포함된 잘못 나타난 결과를 전처리 (정규식 사용하여 특수문자 제거, 조사와 어미 등은 뒤에 띄어쓰기를 더하여 올바른 형태에 가까운 문장으로 변형.) 한글 단어를 벡터화 하기위해서 kor2vec(https://github.com/naver/kor2vec) 사용하고자 함 훈련이 .. 2023. 12. 7.
[책] 데이터 과학자 되는 법 (4) : 성장하기 13장 데이터 과학 프로젝트를 실패할 때 실패 유형 원하던 데이터가 아닌 경우 데이터가 의미가 없을 때 : 문제 재구성하거나 데이터 소스를 변경하는 등 고객이 원하지 않은 경우 실패시 할 수 있는 것 교훈 배우기. 리뷰하기 : 왜 실패했는가, 어떻게 했으면 실패하지 않았을까, 데이터와 문제에서 무엇을 배웠는가? 프로젝트 변경 고려하기 프로젝트 종료하기 이해관계자와 대화하기 부정적인 감정 다루기 : 역량 문제인 경우는 드물다. 전문 데이터 과학자도 실패를 한다. 당신에게 전적인 책임이 있지는 않다. 14장 데이터 과학 커뮤니티 참여하기 장점 : 기술 배우기, 인맥 늘리기, 기회 얻기, 돌려주기! 포트폴리오 관리하기 블로그 관리하기 가벼운 사이드 프로젝트 콘퍼런스 참석하기 어떤 학계은 콘퍼인지, 규모는 어떤.. 2023. 9. 10.
[책] 데이터 과학자 되는 법 (3) : 자리잡기 9장 회사에서의 첫 달 학계와 산업의 차이 산업은 광범위, 학계는 깊고 좁은 하위 분야 중심 연구 : 광범위하고 심도 있는 영역을 선호하면 취업 기회를 갖기에 도움이 될 것. 일과 삶의 균형 : 학계는 주말 없을 수도… 질문 하기 다른사람들이 어떻게 질문하는지 관찰하기 스스로 답 찾을 수 있는 질문 하지 않기 상대의 시간을 존중해라 질문을 가장한 비판은 지양 다른사람과 협업하기 목록을 작성하기 회사에서 첫 번째 데이터 과학자가 된 경우 선례가 없는 경우에는 모든 업무가 암묵적으로 전례가 될 수 있음을 인지하기. 데이터 과학자의 현실적인 기대를 설정하기 퇴사를 결심했을 때 저축을 많이 했는가? 부양할 가족이 있는가? 경제적 자구책이 있는가? 회사가 건강과 업무 외에 삶에 영향을 주었는거? 지금 또는 몇 달.. 2023. 9. 10.
[책] 데이터 과학자 되는 법 (2) : 직무 찾기 5장 탐색 : 본인에게 적합한 직무 찾기 “데이터 과학자”와 유사한 직무 (명칭) 데이터 분석가 (정량적, 제품, 연구 및 다른 형태) ~ 분석가 머신러닝 엔지니어 연구원 (석사 이상 요구) (검색 Keywords : 분석, 분석가, 데이터) 데이터 과학 직무 비즈니스 인텔리전스 분석 직무 (엑셀, 태블로 등) 유니콘 (통계, 머신러닝, 딥러닝 이용 전문가) Tip 요구사항의 60%를 충족한다면 적합하지 않더라도 지원 좋지 않은 부분 발견하기 (직무 기술 없는 경우, 요구 사항 많은 경우, 요구-직무가 상이한 경우) meetup 행사 참여하기 SNS 사용하기 (업무 공유, 도움 요청, 팁 공유) → 브랜드화 하기 융통성 : 나는 이 방식으로 진행할 수 있음을 어필 지원할 직무 결정하기 지원할 기업에서 R.. 2023. 9. 10.
[책] 데이터 과학자 되는 법 (1) : 시작하기 1장 데이터 과학이란 데이터 과학 = 현실의 문제 해결 및 이해를 위해서 데이터를 사용하는 과정 필요 기술 수학과 통계 프로그래밍과 데이터베이스 (파이썬, SQL + git) 도메인 지식 (해당 비즈니스에 대한 이해) 업무 종류 분석 : 형식에 맞게 정리. 대시보드 혹은 보고서 이용 머신러닝 : 프로그래밍 업무 (+통계). 지속적으로 발전하는 모델 설계 의사결정 : 데이터 해석과 실험을 통한 분석 및 추천 관련 직업 비즈니스 인텔리전스 분석가 : 의사결정 전문가와 유사 데이터 엔지니어 : 백엔드 구성요소 구축 등 연구원 : 딥러닝 알고리즘 구축 등 고도화 발전 연구 🤔 데이터 과학 분야의 낙관주의 언론에서 데이터 과학이 지나치게 부풀려 다루고 있음 온라인 강좌나 부트캠프가 과잉공급됨. 초보 수준의 데이터.. 2023. 9. 10.
728x90