0. 분류와 예측
1. 의사결정나무 정의 : 나무 형태로 도표화하여 분류 또는 예측하는 모형.
2. 구성요소 :
뿌리 마디
중간 마디 (내부 마디)
끝 마디 (잎, 단말 마디)
가지
3. 특징
1) 장점 : 예측과정을 해석 용이. 모형 생성을 위한 전처리 필요 없음. 모형 스스로 중요한 변수 선택.
2) 단점 : 일반화 성능이 좋지 않아 과잉적합 되기 쉬움. 데이터의 작은 차이로 완전 다른 나무가 생성될 수 있어 불안정. 중간에 에러가 발생하면 다음 단계에도 에러가 계속 전파됨.
4. 유형 : 분류 나무 (종속 변수가 범주형 변수), 회귀 나무 (종속 변수가 수치형 변수)
5. 분할 기준
1) 회귀나무 : MSE
2) 분류나무 (불순도 또는 순수도를 측정해 불순도가 낮아지거나 순수도가 높아지는 방향으로 마디 형성)
(1) 엔트로피 지수 : 클수록 불순도 커지고 정보가 다양하게 분포되므로 분류 어려워짐
(2) 지니 지수 : 무작위 선택시 잘못된 클래스로 분류될 확률. 0~1사이 값. 0은 모든 요소가 특정 클래스에 속함 / 1은 여러 클라스에 분산되어 있음을 나타냄 (GI = 1 – [ (종속 변수가 A인 관측치 비율) 2 + (종속 변수가 B인 관측치 비율) 2 ] = 1 – [ P(A)2 + P(B)2 ])
728x90
'데이터 어쩌구 > 통계 ・ 수학' 카테고리의 다른 글
[실습] (4-2) 다중 회귀 with R (0) | 2020.12.23 |
---|---|
[실습] (4-1) 단순 회귀 with R (0) | 2020.12.23 |
[이론] (3) 데이터 마이닝 (0) | 2020.12.23 |
[이론] (2) 통계 이론 기초 (0) | 2020.12.23 |
[실습] (1) R 기본 개념과 기초 함수 (0) | 2020.12.22 |