본문 바로가기
데이터 어쩌구/통계 ・ 수학

[이론] 의사결정나무

by annmunju 2020. 11. 24.

0. 분류와 예측

 

1. 의사결정나무 정의 : 나무 형태로 도표화하여 분류 또는 예측하는 모형.

2. 구성요소 : 

뿌리 마디

중간 마디 (내부 마디)

끝 마디 (잎, 단말 마디)

가지

 

 

 

3. 특징

1) 장점 : 예측과정을 해석 용이. 모형 생성을 위한 전처리 필요 없음. 모형 스스로 중요한 변수 선택.

2) 단점 : 일반화 성능이 좋지 않아 과잉적합 되기 쉬움. 데이터의 작은 차이로 완전 다른 나무가 생성될 수 있어 불안정. 중간에 에러가 발생하면 다음 단계에도 에러가 계속 전파됨.

 

4. 유형 : 분류 나무 (종속 변수가 범주형 변수), 회귀 나무 (종속 변수가 수치형 변수)

 

5. 분할 기준 

1) 회귀나무 : MSE 

2) 분류나무 (불순도 또는 순수도를 측정해 불순도가 낮아지거나 순수도가 높아지는 방향으로 마디 형성)

  (1) 엔트로피 지수 : 클수록 불순도 커지고 정보가 다양하게 분포되므로 분류 어려워짐

  (2) 지니 지수 : 무작위 선택시 잘못된 클래스로 분류될 확률. 0~1사이 값. 0은 모든 요소가 특정 클래스에 속함 / 1은 여러 클라스에 분산되어 있음을 나타냄 (GI = 1 – [ (종속 변수가 A인 관측치 비율) 2 + (종속 변수가 B인 관측치 비율) 2 ] = 1 – [ P(A)2 + P(B)2 ])

 

 

 

 

728x90