본문 바로가기
[이론] (2) 통계 이론 기초 1. 통계학 2. 모집단과 표본 3. 모수와 통계량 4. 기술통계학과 추측통계학 5. 모집단, 표본, 모수, 통계량의 관계 6. 모수 통계학(모집단에 대한 가정이 있음), 비모수 통계학(가정이 없음) 1. 변수와 자료 - 양적 자료 (이산적 변수 / 연속적 변수) - 질적 자료 2. 변수의 수준 : 명목 / 서열 / 등간 / 비율변수 - 연구 목적마다 달리 적용 - 높은 수준에서 낮은 수준으로 변환 가능하나 낮은 수준에서 높은 수준으로 변환 불가 3. 도수분포표 : 수집된 자료를 등급(범주)로 분류, 빈도수를 정리한 표 - 상대적 빈도 : f(c) / n (n: 전체 관찰 수, f(c): 각 범주에 속하는 빈도) : 전체 중 해당하는 것의 비율 - 누적 빈도 : 등급에 해당하는 빈도를 총 더한 값 - 상.. 2020. 12. 23.
[실습] (1) R 기본 개념과 기초 함수 1. 변수 1) 개념 (1) 변수(Variable) : 데이터 분석의 대상, 다양한 값을 지니고 있는 하나의 속성 (2) 상수(Constant) : 고정된 값, 분석의 대상이 될 수 없음 2) 변수 만들기 (1)' 2020. 12. 22.
[이론] 의사결정나무 0. 분류와 예측 1. 의사결정나무 정의 : 나무 형태로 도표화하여 분류 또는 예측하는 모형. 2. 구성요소 : 뿌리 마디 중간 마디 (내부 마디) 끝 마디 (잎, 단말 마디) 가지 3. 특징 1) 장점 : 예측과정을 해석 용이. 모형 생성을 위한 전처리 필요 없음. 모형 스스로 중요한 변수 선택. 2) 단점 : 일반화 성능이 좋지 않아 과잉적합 되기 쉬움. 데이터의 작은 차이로 완전 다른 나무가 생성될 수 있어 불안정. 중간에 에러가 발생하면 다음 단계에도 에러가 계속 전파됨. 4. 유형 : 분류 나무 (종속 변수가 범주형 변수), 회귀 나무 (종속 변수가 수치형 변수) 5. 분할 기준 1) 회귀나무 : MSE 2) 분류나무 (불순도 또는 순수도를 측정해 불순도가 낮아지거나 순수도가 높아지는 방향으로 .. 2020. 11. 24.
728x90