본문 바로가기
코딩 어쩌구/Data

Multimodal Data Processing

by annmunju 2024. 3. 25.

 

https://a16z.com/wp-content/uploads/2020/10/Data-Report-Martin-Inline-Graphics-R8-1.pdf

 

Sources

  • ERP : 전사 관리 소프트웨어 (더존, 세일즈포스 같은거…)
  • 운영하는 어플, 이벤트, 로그, 서드파티앱, 파일이나 오브젝트 스토리지

OLTP의 개념 이해

(OLTP와 OLAP의 차이) OLTP와 OLAP 비교 - 데이터 처리 시스템 간의 차이점 - AWS

  • 온라인 분석 처리(OLAP)와 온라인 트랜잭션 처리(OLTP)
  • OLAP 시스템은 보고서를 생성하고, 복잡한 데이터 분석을 수행하며, 추세를 식별하는 데 사용됩니다.
  • 반대로 OLTP 시스템은 주문을 처리하고, 재고를 업데이트하며, 고객 계정을 관리하는 데 사용됩니다.

OLAP OLTP

주요 목적 분석 (보고서 생성, 데이터 분석, 추세 식별 등) 서비스 (주문 처리, 재고 업데이트, 계정 관리 등)
데이터 형식 다차원 데이터 모델 사용 (큐브 형식) 일차원 데이터 모델 사용 (관계형 DB)
데이터 아키텍처 쓰기 < 읽기  
대용량 데이터를 복잡한 쿼리로 읽는 것이 높은 우선순위 읽기 < 쓰기  
데이터 무결성을 손상시키지 않으면서 대용량 트랜잭션 데이터를 자주 업데이트    
성능 / 시기 분석 데이터의 크기에 따라 다름. 데이터를 배치로 처리한 다음 한번에 업로드.  
업데이트는 시스템 마다 매일/매주/매월로 다름 밀리초 이하 단위로 측정. 실시간으로 관리. 배치보다는 스크림 처리가 주로 사용  

Ingestion & Transport

Workflow Manager

Event Streaming (이벤트 실시간 전송)

  1. 카프카 ? https://unit-15.tistory.com/135
    • 카프카 SaaS 서비스
    1. AWS의 MSK (Managed Streaming for Kafka)
    2. Confluent의 Cloud Kafka (Confluent Cloud)
    위 서비스들은 카프카 서버를 직접 구축하지 않아도 카프카를 SaaS 형태로 사용할 수 있는 서비스이다.
  2. AWS Kinesis https://aws.amazon.com/ko/kinesis/
  3. Apach Pulsar https://devocean.sk.com/blog/techBoardDetail.do?ID=164597&boardType=techBlog
  4. Upsolver https://aws.amazon.com/marketplace/pp/prodview-hcmcf7faxwxw2?ref_srh_res_product_title

Storage

Data Lake

Apache Hudi vs Delta Lake vs Apache Iceberg - Data Lakehouse Feature Comparison

Query and Processing

  • 스파크 플랫폼 : Databricks, 아마존 EMR
  • SQL 쿼리 엔진 : Starburst presto trino hive dremio databricks photon
  • DS/ML 플랫폼 : 판다스, Dask, anyscale ray pytorch
  • Stream Processing : Databricks, Confluent, Flink,Upsolver, Materialize

Transformation

Analysis and Output

  • 대시보드
  • 임베딩 분석
  • 데이터 워크스페이스
  • DS/ML 도구 (데이터 브릭스, 세이지매이커, 데이터로봇 등)
  • 앱 프레임워크 (Streamlit, Plotly Dash)
  • 커스텀앱들…
728x90

'코딩 어쩌구 > Data' 카테고리의 다른 글

(트랜잭션) CAP theorem -> ACID vs BASE DBs  (0) 2024.03.15
VectorDB : Milvus  (0) 2024.02.27
[풀스택] Database : SQL  (0) 2022.02.03
[SQL] 데이터 조작 언어(DML) 기본  (0) 2021.11.05
[SQL] MySQL 사용해보기  (0) 2021.10.29