본문 바로가기
코딩 어쩌구/Data

<ADsP>

by annmunju 2020. 11. 24.

1. 데이터 이해하기

 

<데이터>

1. 개별 데이터 자체로는 객관적 사실일 뿐이며, 여러 데이터들의 관계 속에 가치를 갖는다. (존재성, 당위성)

2. 정성적 데이터와 정량적 데이터

3. DIKW 피라미드 : Data, Information, Knowledge, Wisdom

 

<데이터 베이스>

1. 데이터 베이스 : 동시에 복수 적용 업무를 지원할 수 있도록 일정한 구조에 따라 편성된 데이터 집합.

2. DBMS : 데이터 베이스 관리 시스템 소프트웨어. (데이터 베이스와 혼용해서 사용)

= 일반적으로 1, 2를 함께 데이터베이스 시스템이라고 칭함.

3. 특징 : 통합(중복X), 저장, 공용, 변화

4. 특성 : 정보 축적과 전달에 있어 검색 가능하고, 기계가독성이 있으며, 원격조작성을 가짐. / 정보 이용 신속하게, 정보 관리 용이하게 / 정보 기술 발전 / 경제 산업에서 효율성 제고 국민의 편의 증진

5. 종류

  1) 기업 내부 DB : OLTP, OLAP (~1980) / CRM, SCM (1980~)

  2) 분야별 

     (1) 제조 : DW*, ERP, BI, CRM

     (2) 금융 : EAI, EDW, 블록체인, ERP, e-CRM

     (3) 유통 : KMS, RFID, CRM, SCM

     * DW의 특성 : 데이터 주제 지향성, 통합, 시계열성, 비휘발성

   3) 사회 기반 구조 DB : EDI(전자문서), CALS(광속상거래)

     * BI vs BA : 성과 측정 및 계획(BI) < 성과 이해 및 통찰력에 초점을 둔 분석방법. 사전 예측과 최적화. (BA)

   4) 분야별

     (1) 물류 : 종합물류정보망(실시간 차량추적), 부가가치통신망(VAN)

     (2) 지리 : 국가 지리 정보체계(NGIS), RS, GPS

     (3) 교통 : 지능형교통시스템 (ITS)

     (4) 의료 : 의료 ERD

     (5) 교육 : 교육행정정보시스템 (NEIS) 

 

<빅데이터>

1. 3V : Volume, Variety, Velocity

2. 데이터 크기 : GB < TB < PB(페타바이트) < EB(엑사바이트) < ZB(제타바이트)

3. 변화 : 사전보다 사후처리 시대. 표본조사보다 전수조사. 질보다 양. 인과관계에서 상관관계.

4. 활용 테크닉 : 연관규칙학습(장바구니분석) / 유형분석 / 유전알고리즘(의사결정나무) / 기계학습(학습한 특성을 활용해 예측) / 회귀분석(요인 > 요인 어떤영향?) / 감정분석 / SNA(소셜 네트워크 분석, 사회관계망 분석)

5. 빅데이터 활용 3요소 : 데이터, 기술, 인력

 

<전략 인사이트>

1. 인사이트 : 통찰. 본질을 꿰뚫어 봄.

2. 필요 역량 : 데이터 사이언스

  1) 의미와 역할 : 총제적 접근. (다양한 유형의 데이터) 

  2) 구성요소 : IT, 분석, 비즈니스 컨설팅

  3) 요구 역량 : 이론적 지식, 기술 숙련 / 통찰력 있는 분석, 설득력 있는 전달, 다분야 협력 / + 인문학

3. 미래의 가치 패러다임 : Digitalization(디지털화) > Connection(연결) > Agenct(관리)

 

2. 데이터 분석 기획 이해하기

 

<분석 기획>

1. 데이터 사이언스 필요 역량 : 컴퓨터 사이언스, 수학&통계학 지식, 비즈니스 분석능력

2. 분석 유형 (아래 네가지 융합, 반복함)

    분석의 대상(what)
    Known Un-Known
분석의 방법(how) Known Optimization Insight
Un-Known Solution Discovery

3. 분석 방법론

  1) KDD 분석 방법론

     (1) 데이터셋 선택

     (2) 데이터 전처리

     (3) 데이터 변환

     (4) 데이터 마이닝

     (5) 데이터 마이닝 결과 평가

  2) CRISP-DM 분석 방법론

     (1) 업무 이해 (목적파악, 목표설정, 계획수립)

     (2) 데이터 이해 (초기데이터 수집, 기술 분석 탐색, 품질 확인)

     (3) 준비 (데이터셋 선택, 정제, 통합, 포맷팅)

     (4) 모델링 (문제발견, 대응방안 마련)

     (5) 평가 

     (6) 전개

4. 분석방법론

  1) 분석 기획 : 비즈니스 이해 및 범위 설정 > 프로젝트 정의 및 계획 수립 > 프로젝트 위험 계획 수립

  2) 데이터 준비 : 필요 데이터 정의 > 데이터 스토어 설계 > 데이터 수집 및 정합성 점검

  3) 데이터 분석 : 분석용 데이터 준비 > 텍스트 분석 > 탐색적 분석 > 모델링 > 모델 평가 및 검증

  4) 시스템 구현 : 설계 및 구현

  5) 평가 및 전개

5. 분석 과제 발굴 

    분석의 대상(what)
    Known Un-Known
분석의 방법(how) Known Optimization Insight
Un-Known Solution Discovery

  1) 하향식 접근 방식 (Optimization > Solution)

     (1) 문제 탐색 단계 (what, why) : 비즈니스 모델 기반 문제 탐색 > 분석 기회 발굴 범위 확장 (거시적, 경쟁자, 시장, 역량 재해석) > 외부 참조 모델 기반 문제 탐색 > 분석 유즈 케이스 > 

     (2) 문제 정의 (how) 

     (3) 해결 방안 탐색 

     (4) 타당성 검토 단계

  2) 상향식 접근 방식 (Discovery > Insight) : 비지도학습. (군집화) 데이터가 어떻게 구성되어 있는지 밝히는 데 주로 사용.

6. 분석 과제 관리 영역 : Data Size, Data Complexity, Speed, Analytic Complexity, Acciracy(정확도) & Precision(정밀도)

7. 분석 프로젝트 관리 지침 가이드 : 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통

 

<분석 마스터플랜>

1. 마스터플랜 수립 (중장기 로드맵) : ISP(정보전략계획) 방법론 활용, 데이터 분석과제 도출 후 과제의 우선순위 결정 > 단기, 중기, 장기로 나누어 계획을 수립.

2. 수행과제 도출과 우선순위 평가

  1) ROI 관점(누적 순효과/총비용) 평가 기준 

      (1) 시급성 : Value (비즈니스 효과)

      (2) 난이도 : Volume, Variety, Velocity (투자비용 요소)

  2) 포트폴리오 사분면 평가 기준

  현재 시급 미래 시급
난이도 어려움 1) 시급하게 추진. 바로 하기 어려움 2) 중장기적 관점에서 필히 추진. 어려움
난이도 쉬움 3) 바로 적용 가능할 필요성 있음 4) 중요하지 않아 중장기적 추진. 쉬움.

* 시급성 : 3 > 4 > 2 / 난이도 : 3 > 1 > 2

3. 이행계획 수립 : 폭포수 모델 / 나선형 모델 / (혼합형 모델)

4. 데이터 거버넌스 : 표준화된 관리체계 + 프레임워크와 저장소 구축

5. 데이터 분석 성숙도 모델 및 수준 진단

  1) 분석 준비도 : 분석 업무, 인력조직, 기법, 데이터, 문화, 인프라

  2) 분석 성숙도 : 도입 > 활용 > 확산 > 최적화 단계

6. 진단 결과 

  준비도 낮음 준비도 높음
성숙도 높음 정착형 확산형
성숙도 낮음 준비형 도입형

7. 데이터 거버넌스 구성 요소 : 원칙, 조직, 프로세스

8. 데이터 거버넌스 체계 요소 : 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동

9. 데이터 조직 및 인력 : 집중 구조 / 기능 구조 / 분산 구조

728x90

'코딩 어쩌구 > Data' 카테고리의 다른 글

[시험 준비] SQLD 일정 및 내용  (0) 2021.01.15
[생활코딩] 관계형 데이터 모델링  (0) 2020.12.23
[생활코딩] SQL Join  (0) 2020.12.22
[생활코딩] DATABASE1  (0) 2020.12.21
<고객DB분석>  (0) 2020.11.24