본문 바로가기
[ProDS] 머신러닝 이론 및 데이터 처리 1. 데이터 전처리 : 데이터 생성, 정제, 변환, 결합 1) 결측값 처리법 (1) 완전 제거법 (정보 손실의 분석 결과 왜곡 가능성 있음) (2) 평균대체법 (추정량 표준오차가 과소 추정될 수 있음) (3) 핫덱대체법 : 동일한 데이터 내 결측값이 발생한 관찰치와 유사한 특성을 가진 다른 관찰치의 정보를 이용하여 대체하는 방법 2) 이상치 판별 (1) 박스플롯 그려서 이외 Q1-1.5*IQR 과 Q3+1.5*IQR의 범위를 넘어가는 자료를 이상값으로 진단. (2) 표준화 점수 (Z-score)의 절대값이 2, 3보다 큰 경우를 이상값으로 진단. 3) 이상값 처리 (1) 이상값 제외 (2) 이상값 대체 : 이상값을 정상 범위의 최소값, 최대값과 대체 (3) 변수 변환 : 자료값 전체에 로그변환, 제곱근 .. 2022. 3. 19.
[ProDS] 통계 이론 및 데이터 시각화 1. 확률의 개념과 특징 1) 라플라스의 확률 : n개 (유한한) 실험결과의 표본 공간에서 m(m = 0, P(S) = 1, 상호 배반인 경우 P(A1 U A2 U ... ) = P(A1) + P(A2) + ... 3) 콜모그로프의 확률(공리적 접근방식) (1) 정의 : 표본공간을 정의역으로 하며 (위 세가지) 공리를 만족하는 함수를 확률로 정의 4) 특징 (1) 여사건, 곱사건(교집합), 합사건(합집합) (2) 조건부 확률 : B사건 하에서 A사건이 일어날 확률 : P(A|B) (3) 독립사건 : P(A | B) = P(A), P(A 교집합 B) = P(A) * P(B) 2. 베이즈 정리 : 결과 A, 원인 B 1) 표본공간의 분할 : 어떤 결과 확률이 k개의 원인들 중에 하나로 결정 되어야 함. 모.. 2022. 3. 15.
728x90