본문 바로가기
데이터 어쩌구/통계 ・ 수학

[이론] (3) 데이터 마이닝

by annmunju 2020. 12. 23.

1. 의미 

 1) Data Mining : 자료 채굴

 2) 대규모 데이터에 대한 귀납적 추론

 3) 의미있는 패턴이나 규칙을 찾기 위해 다량의 데이터를 탐구하고 분석하는 과정

2. 귀납적 추론 : 개별적 사실과 현상에서 관찰된 일반적인 결론을 이끄는 추론형식의 추리방법 (사실적 지식을 확장해주는 특징이 있지만, 전제가 결론의 필연성을 논리적으로 확립해주지 못한다는 한계 존재)

3. 빅데이터의 특징 : 3V (Volume, Velocity, Variety

 

4. 데이터 마이닝 모델링 방법

 1) 데이터 속 패턴 찾기

  (1) 연관 규칙 분석 ex. 장바구니 분석 

  (2) 군집 분석 : 유사한 데이터들의 군집화

 2) 분류와 예측 : y=f(x) : x를 이용해 y를 예측

 * 범주형 변수 = 분류, 수치형 변수 = 예측

  (1) 회귀 분석 

    - 예측 기법

    - 독립변수와 종속변수의 상관계수가 얼만큼인지 예측 가능

    - 범주형 변수의 경우 0, 1로 해당하지 않음, 해당함을 구분한 뒤 R 프로그램 이용 가능 (로지스틱 회귀분석)

  (2) 의사결정 나무

    - 분류 기법

 

5. 데이터 마이닝 프로세스

 1) 비즈니스의 이해

  (1) 해결해야 할 문제 이해 (의사결정 문제)

  (2) 문제 파악 과정을 반복하며 문제 재정의

  (3) 창의적으로 문제 정의

  (4) 정확히 원하는 비즈니스 본질 파악

  (5) 데이터 분석을 필요로 하는 부분 알기

 2) 데이터의 이해

  (1) 1차 데이터 : 현재 문제를 다루기 위해 직접 수집하는 데이터

  (2) 2차 데이터 : 다른 목적으로 수집된 데이터

  (3) 여러 데이터의 장단점 파악하고 비교, 비용 고려하기

 3) 데이터 준비 = 전처리 (많은 시간과 노력 투입,, 특히 2차 데이터)

 4) 모델링 = 분석 목적에 따라 알맞은 모델 선택

 5) 평가 = 분석 결과에 대한 성능 평가. 해결하고자 하는 문제나 비즈니스 목적에 부합하는지 확인

 6) 적용 = 결과를 실제 활용

728x90