https://a16z.com/wp-content/uploads/2020/10/Data-Report-Martin-Inline-Graphics-R8-1.pdf
Sources
- ERP : 전사 관리 소프트웨어 (더존, 세일즈포스 같은거…)
- 운영하는 어플, 이벤트, 로그, 서드파티앱, 파일이나 오브젝트 스토리지
OLTP의 개념 이해
(OLTP와 OLAP의 차이) OLTP와 OLAP 비교 - 데이터 처리 시스템 간의 차이점 - AWS
- 온라인 분석 처리(OLAP)와 온라인 트랜잭션 처리(OLTP)
- OLAP 시스템은 보고서를 생성하고, 복잡한 데이터 분석을 수행하며, 추세를 식별하는 데 사용됩니다.
- 반대로 OLTP 시스템은 주문을 처리하고, 재고를 업데이트하며, 고객 계정을 관리하는 데 사용됩니다.
OLAP OLTP
주요 목적 | 분석 (보고서 생성, 데이터 분석, 추세 식별 등) | 서비스 (주문 처리, 재고 업데이트, 계정 관리 등) |
데이터 형식 | 다차원 데이터 모델 사용 (큐브 형식) | 일차원 데이터 모델 사용 (관계형 DB) |
데이터 아키텍처 | 쓰기 < 읽기 | |
대용량 데이터를 복잡한 쿼리로 읽는 것이 높은 우선순위 | 읽기 < 쓰기 | |
데이터 무결성을 손상시키지 않으면서 대용량 트랜잭션 데이터를 자주 업데이트 | ||
성능 / 시기 | 분석 데이터의 크기에 따라 다름. 데이터를 배치로 처리한 다음 한번에 업로드. | |
업데이트는 시스템 마다 매일/매주/매월로 다름 | 밀리초 이하 단위로 측정. 실시간으로 관리. 배치보다는 스크림 처리가 주로 사용 |
Ingestion & Transport
Workflow Manager
- Airflow Astronomer
- https://docs.astronomer.io/learn
- Write a DAG with the Astro
- DAGs : AirFlow에서 실행할 작업들을 순서에 맞게 구성한 워크플로우. 각 작업들은 테스크로 관리되고 Task의 관계와 종속성을 반영하여 구조화 되어있음.
- Prefect https://www.prefect.io/prefect-vs-airflow
Event Streaming (이벤트 실시간 전송)
- 카프카 ? https://unit-15.tistory.com/135
- 카프카 SaaS 서비스
- AWS의 MSK (Managed Streaming for Kafka)
- Confluent의 Cloud Kafka (Confluent Cloud)
- AWS Kinesis https://aws.amazon.com/ko/kinesis/
- Apach Pulsar https://devocean.sk.com/blog/techBoardDetail.do?ID=164597&boardType=techBlog
- Upsolver https://aws.amazon.com/marketplace/pp/prodview-hcmcf7faxwxw2?ref_srh_res_product_title
Storage
Data Lake
Apache Hudi vs Delta Lake vs Apache Iceberg - Data Lakehouse Feature Comparison
- 하둡 저장형식 Parquet, 아파치 ORC, 아파치 아브로 Avro
- (클라우드 스토리지) S3, GCS, ABS, HDFS
Query and Processing
- 스파크 플랫폼 : Databricks, 아마존 EMR
- SQL 쿼리 엔진 : Starburst presto trino hive dremio databricks photon
- DS/ML 플랫폼 : 판다스, Dask, anyscale ray pytorch
- Stream Processing : Databricks, Confluent, Flink,Upsolver, Materialize
Transformation
Analysis and Output
- 대시보드
- 임베딩 분석
- 데이터 워크스페이스
- DS/ML 도구 (데이터 브릭스, 세이지매이커, 데이터로봇 등)
- 앱 프레임워크 (Streamlit, Plotly Dash)
- 커스텀앱들…
728x90
'코딩 어쩌구 > Data' 카테고리의 다른 글
(트랜잭션) CAP theorem -> ACID vs BASE DBs (0) | 2024.03.15 |
---|---|
VectorDB : Milvus (0) | 2024.02.27 |
[풀스택] Database : SQL (0) | 2022.02.03 |
[SQL] 데이터 조작 언어(DML) 기본 (0) | 2021.11.05 |
[SQL] MySQL 사용해보기 (0) | 2021.10.29 |