본문 바로가기
데이터 어쩌구/강연, 책, 학회

<데이터 파이프라인 핵심 가이드> 02 최신 데이터 인프라

by annmunju 2024. 4. 1.

데이터 소스의 다양성

  • 데이터 수집 도구
  • 클라우드 데이터 웨어하우스와 데이터 레이크
  • 모델링 도구 및 프레임워크
  • 워크플로 오케스트레이션 플랫폼

소스 시스템 소유권

  • 어디서 소스 시스템을 가지고 오는지에 따라 데이터 가용 범위가 달라짐

수집 인터페이스 및 데이터 구조

  • 수집 인터페이스
    • Postgres, MySQL DB와 같은 애플리케이션 뒤 데이터베이스
    • REST API와 같은 시스템 상단의 추상화 계층
    • Apache Kafka같은 스트림 처리 플랫폼
    • 로그, 쉼표로 구분된 값 (csv) 파일 및 기타 플랫 파일을 포함하는 공유 네트워크 파일시스템 또는 클라우드 스토리지 버킷
    • 데이터 웨어하우스 또는 데이터 레이크
    • HDFS 또는 HBase 데이터베이스의 데이터
  • 데이터 구조
    • REST API의 Json
    • MySQL DB의 데이터, 테이블 열 내 Json
    • 반정형화 된 로그데이터
    • CSV, 고정폭 형식 및 기타 플랫 파일 형식
    • 플랫 파일의 Json
    • Kafka의 스트림 출력

데이터 사이즈

  • 대,소용량 이분류가 아니라 스펙트럼임을 알기

데이터 클렌징 작업과 유효성 검사

  • 지저분한 데이터
    • 중복되거나 모호한 레코드
    • 고림된 레코드
    • 불완전하거나 누락된 레코드
    • 텍스트 인코딩 오류
    • 일치하지 않는 형식
    • 레이블이 잘못되었거나 레이블이 지정되지 않은 데이터
  • 유효성 검사
    • 최악을 가정하고 최상을 기대해라
    • 가장 적합한 시스템에서 데이터를 정리하고 검증해라
    • 자주 검증해라

소스 시스템의 지연시간 및 대역폭

클라우드 데이터 워어하우스 및 데이터 레이크

  • 데이터 웨어하우스
    • 데이터가 모델링되어 저장.
    • 리포팅 및 분석 쿼리를 위해 정형화되고 최적화된다.
  • 대이터 레이크
    • 대량의 데이터, 다양한 유형.
    • json 등

데이터 수집 도구

  • 예 : Singer, Stitch, Fivetran

데이터 변환 및 모델링 도구

  • 데이터 변환 : ELT, ETL
  • 데이터 모델링 : 구체적인 데이터 변환 유형

워크플로 오케스트레이션 플랫폼

  • 아파치 에어플로우, Luigi, AWS Glue
  • Kubeflow pipeline (with Docker)

방향성 비순환 그래프

  • DAGs
    • 방향성 : 하나 이상의 작업으로 시작하고 특정 작업으로 끝난다. 실행 경로와 순서 보장
    • 비순환 : 작업이 끝나야 다음 작업으로의 시작

데이터 인프라 커스터마이징

728x90