데이터 소스의 다양성
- 데이터 수집 도구
- 클라우드 데이터 웨어하우스와 데이터 레이크
- 모델링 도구 및 프레임워크
- 워크플로 오케스트레이션 플랫폼
소스 시스템 소유권
- 어디서 소스 시스템을 가지고 오는지에 따라 데이터 가용 범위가 달라짐
수집 인터페이스 및 데이터 구조
- 수집 인터페이스
- Postgres, MySQL DB와 같은 애플리케이션 뒤 데이터베이스
- REST API와 같은 시스템 상단의 추상화 계층
- Apache Kafka같은 스트림 처리 플랫폼
- 로그, 쉼표로 구분된 값 (csv) 파일 및 기타 플랫 파일을 포함하는 공유 네트워크 파일시스템 또는 클라우드 스토리지 버킷
- 데이터 웨어하우스 또는 데이터 레이크
- HDFS 또는 HBase 데이터베이스의 데이터
- 데이터 구조
- REST API의 Json
- MySQL DB의 데이터, 테이블 열 내 Json
- 반정형화 된 로그데이터
- CSV, 고정폭 형식 및 기타 플랫 파일 형식
- 플랫 파일의 Json
- Kafka의 스트림 출력
데이터 사이즈
- 대,소용량 이분류가 아니라 스펙트럼임을 알기
데이터 클렌징 작업과 유효성 검사
- 지저분한 데이터
- 중복되거나 모호한 레코드
- 고림된 레코드
- 불완전하거나 누락된 레코드
- 텍스트 인코딩 오류
- 일치하지 않는 형식
- 레이블이 잘못되었거나 레이블이 지정되지 않은 데이터
- 유효성 검사
- 최악을 가정하고 최상을 기대해라
- 가장 적합한 시스템에서 데이터를 정리하고 검증해라
- 자주 검증해라
소스 시스템의 지연시간 및 대역폭
클라우드 데이터 워어하우스 및 데이터 레이크
- 데이터 웨어하우스
- 데이터가 모델링되어 저장.
- 리포팅 및 분석 쿼리를 위해 정형화되고 최적화된다.
- 대이터 레이크
- 대량의 데이터, 다양한 유형.
- json 등
데이터 수집 도구
- 예 : Singer, Stitch, Fivetran
데이터 변환 및 모델링 도구
- 데이터 변환 : ELT, ETL
- 데이터 모델링 : 구체적인 데이터 변환 유형
워크플로 오케스트레이션 플랫폼
- 아파치 에어플로우, Luigi, AWS Glue
- Kubeflow pipeline (with Docker)
방향성 비순환 그래프
- DAGs
- 방향성 : 하나 이상의 작업으로 시작하고 특정 작업으로 끝난다. 실행 경로와 순서 보장
- 비순환 : 작업이 끝나야 다음 작업으로의 시작
데이터 인프라 커스터마이징
728x90
'데이터 어쩌구 > 강연, 책, 학회' 카테고리의 다른 글
Google IO 2023 관련 내용 요약 (0) | 2023.09.03 |
---|---|
[특허] 인공지능 특허 보호 (0) | 2023.08.28 |
[강연] 모두팝 : AI연구원으로 일하는 법 (0) | 2023.08.26 |
[AI기술] 카카오 컨퍼런스 세션 요약 (0) | 2023.08.26 |