본문 바로가기
데이터 어쩌구/전처리 및 시각화

[객체지향] EDA : 배경지식

by annmunju 2022. 1. 17.

<데이터 중심 지표>

1. 평균값 : mean()

2. 중앙값 : mid()

3. 최빈값 : mode(), value_count > sort > 첫번째 값

 

<데이터 산포도>

1. 분산과 표준편차 : var(), std()

2. 범위 : max() - min()

3. 사분위수 : np.percentile(data, 25/50/75/100)

 

<데이터 정규화>

 * 표준화된 데이터는 평균이 0이고 표준편차가 1이다.

1. Z 점수(표준화 변량)

  (해당점수 - 점수들의 평균) / 표준편차

2. min-max 표준화

  (해당점수 - 점수들의 최솟값) / (점수들의 최댓값 - 점수들의 최솟값)

+. 편찻값 : 평균이 x, 표준편차가 y로 정규화 할 경우

x + (y * ((해당점수 - 점수들의 평균) / 표준편차))

 


 

 

 

728x90