본문 바로가기
데이터 어쩌구/통계 ・ 수학

[이론] 기초 : 중심 경향과 분포

by annmunju 2021. 10. 19.

Chapter 01 정보의 시각화

1. PIE Chart

  • 차이가 없으면 시각적 효과가 떨어짐.
  • 최대값 100%로 이상인 경우 시각적으로 넓이가 맞지 않음.

2. Bar Chart

  • 막대가 하나의 범주. 도수를 나타냄(혹은 퍼센트 값)
  • 수직/수평 막대 그래프.

3. 히스토그램

  • 구간별 도수 값을 시각화
  • 바 사이가 벌어져있지 않고 붙어있는 것으로 보임.(범위니까!) - 하지만 진짜 붙어있진 않지..
  • 구간이 일정치 않을 수 있지만, 막대 면적의 합은 전체 도수의 합과 같아야 함.
  • 막대의 높이는 단위 막대 길이당 도수의 값. 높이 = 도수/막대길이(가로)
  • 누적 도수를 그래프로 그릴 수 있음.

 

Chapter 02. 데이터의 중심 경향

1. 평균 : Sum (시그마, 서메이션) X / n (뮤 μ 라고도 함)

2. 중앙값 : 이상치(Outlier)가 있는 경우 평균값이 너무 커진다(왜곡시킨다).

  • 편향된 데이터 skewed data
  • 오른쪽으로 편향된 데이터 skewed to the right . 왼쪽으로 편향된 데이터 skewed to the left : 꼬리가 긴쪽을 편향되었다고 표현. (이상치들이 존재하니까!)
  • 좌우 대칭 데이터 symmetric data
  • 중앙값(중간값) median과 평균

3. 최빈값 : 극단에 있는 값들이 몰려 있는 경우 일부 값 수정에 따라 중간값이 크게 바뀔 수 있음. 도수 분포표로 표현하면 어디에 분포가 몰려있는지 확인 가능. 이 경우 mode 최빈값을 구한다.

 

Chapter 03. 변이와 분포 측정하기

1. 범위 range : 평균과 더불어 확인해야 함. 하한과 상한의 간격을 범위라고 함.

2. 사분위 : 이상치 존재시 범위를 확인하면 데이터가 어떤지 정확하게 인식하기 어려움. 사분위는 Q1(lower quuartile), Q2(median), Q3(upper quartile), Q4로 나눠서 사분위수로 표현.

  • 사분범위 Q3 - Q1 : 작은 범위 만듬. 이상치를 잘라낸 모양이라고 판단.

3. 십분위, 백분위 : 십분위수, 백분위수 (K%) : 상대적인 값을 의미 Pk

4. 박스플랏

5. 분산과 표준편차

- 평균으로부터 각 데이터 거리(편차)를 제곱으로 해서 더하고 갯수를 나눔(평균으로 만듬)

= 편차 제곱의 평균 : 분산

- 분산에 루트를 씌운것 : 표준편차 : 단위를 기존 데이터와 같게 만들기

6. 표준점수 (표준화)

  • 표준점수는 평균을 0으로 만드는 것. (값-평균)/표준편차
  • 서로 다른 평균의 데이터를 비교하려 할 때

 

Chapter 04. 확률 계산하기

1. 확률 : 사건A가 일어나는 갯수 / 전체 사건 갯수

  • 벤다이어그램으로 시각화 가능.
  • 사건이 일어나는 경우 + 일어나지 않을 확률(여사건) = 1(전체 확률)
  • 확률은 더할 수 있다. 둘 사이에 겹치는 경우가 없을 경우에는. (배반사건)

2. 확률의 덧셈 : 둘 사이에 겹치는 경우가 있는 경우 확률을 더하고 동시에 일어나는 경우(교집합)를 한 번 빼면 됨.

  • 교집합 기호와 합집합 기호 (알지?)

3. 조건부 확률 : 어떤 상황(조건)에서 하의 확률 : P(A|B) = 동시에 일어나는 경우(교집합) / (조건 내)전체 경우

  • 확률 트리 (나눠지는 루트(분기)에서는 반드시 배반사건이어야 함)

4. 베이즈 정리와 독립사건 (Monday:A, Tuesday:B)

  • P(B) = P(A  B) + P(\A_'_ ∩ B) : B 전체 집합은 A, B가 동시에 일어나는 경우와 A 여집합, B가 동시에 일어나는 경우의 합이다.
  • 그 속에 교집합들의 확률은 P(A  B) = P(A) X P(B | A) : A의 전체 확률에 B사건 하의 A의 조건부 확률을 곱한 값.
  • 결론) P(B) = P(A) X P(B | A) + P(A') X P(B | A') : 전확률의 법칙
  • 베이즈 정리 : 모든 경우의 수 확률을 모를 때 P(B | A)에서 P(A | B)를 구하는 유용한 방법.

  • P(A | B) = ( P(A) X P(B | A) ) / ( P(A) X P(B | A) + P(A') X P(B | A') )

- 독립사건일때, 두 사건은 조건부 확률에 영향을 주지 않음. 두 사건 확률을 곱하면 P(A  B)와 같음.

 

Chapter 05. 이산확률분포

1. 슬롯머신의 확률

2. 이산확률분포 : 값이 정해져 있는, 셀 수 있는 확률의 분포

  • 기대치 : 평균값

  • 기대치를 이산확률분포에서 구하기 : 변수와 확률값을 곱해주고 다 더해주면 됨.
  • 분산 : ((확률변수-기대치)^2)와 확률값을 곱해주고 다 더해주면 됨.
  • 표준편차 : 분산^1/2

3. 확률의 선형관계

  • 두 확률의 변수가 선형관계에 있는 경우분산은 Var(aX+b) = a^2Var(X)으로 구할 수 있다.
  • 기댓값은 E(aX+b) = aE(X) + b
  • 공분산 : 두 확률변수의 분포가 결합될 때 그 결합 확률 분포의 분산을 측정하는 것으로 Cov(X, Y)로 표현

  • 공분산이 0인 것은 두 확률 변수 사이에 비례적 선형관계를 발견할 수 없는 경우
  • 비례 관계 정도에 따라 공분산 크기 바뀜
  • 서로 영향 없는 경우에 사건, 결과로 나타날 값은 관측값, 매번 새롭게 독립관측. 두 확률 변수가 독립관측인 경우, 기댓값은 각각의 기댓값을 더해주면 됨. 사건의 뺄셈을 한 경우에는 기댓값을 빼줘야 됨.
  • 분산은 각각의 분산을 더해주면 됨. (독립일때만!!!) 사건 뺄셈 한 경우 분산을 더한값과 같음 (제곱했기때문에...)

<예제>

 

Chapter 06. 순열과 조합

1. 팩토리얼 : 전체 경우의 수 구할 때 n! = n * (n-1) * (n-2) * ... * 1

  • 원 모양 배치에서는 한 말을 고정하기 때문에 (n-1)!

2. 순열

: N 가지의 경우에서 n개를 뽑는 경우의 수 (순서를 생각하는 경우) : N! / (N-n)! : 결과적으로는 N개부터 하나씩 줄어들면서 뽑는 수 만큼 곱하면 됨.

3. 조합

: N 가지 경우에서 n개를 뽑는 경우의 수 (순서를 생각하지 않는 경우) : N! / (n! * (N-n)!) : 결과적으로는 N개부터 하나씩 줄어들면서 뽑는 수 만큼 곱한 값에 n!을 나누면 됨.

 

Chapter 07. 기하, 이항, 푸아송 분포

1. 기하분포 : 성공확률 p, 실패확률 q=1-p / r-1번 실패하고 1번 성공함 : P(X=r) = (q^(r-1)) * p

  • 기하 분포의 최빈값은 1
  • P(X > r) = q^r
  • P(X <= r) = 1-q^r
  • 성공을 거둘 확률이 p 일때 변수 X가 기하분포를 따른다 : X~Geo(p)
  • 기댓값 : 성공률 누계 (P(X <= r))는 (1/성공률)에 수렴 (ex. 성공률 0.2라면 5에 수렴)
  • 분산 : q 실패확률 / p^2 성공확률의 제곱

2. 이항분포 : 보기 ?개(확률값 계산)인 질문 n개에 대해 정답을 구하는 확률 : 베르누이 시행

  • P(X = r) = nCr * p^r * q^(n-r)
  • 기하분포와 이항분포의 차이
    • 이항분포는 성공의 수에 관심. 기하분포는 성공을 거두기 위해 시행해야 하는 시행의 횟수에 관심.
    • 이항분포는 n번 시행해서 성공적인 결과를 얻는 수를 X라고 할 때, r번의 성이 있을 확률을 구하는 것.
    • 기하분포는 변수 X가 첫번째 성공(사건이 일어나는 것)을 거두기 전 까지 시도해야하는 시행의 횟수.
  • X가 이항분포를 따를 때, p의 확률일 때 n번 시행인 경우 : X ~ B(n, p)
  • 기댓값 : (한번 시행시) p (n번 시행시) n*p
  • 분산 : (한번 시행시) p*q (n번 시행시) n*p*q

3. 포아송 분포 : 어떤 주어진 구간에 사건이 발생하는 수를 X라고 하고, X가 구간마다 람다(발생 수의 평균값)만큼 발생하는 푸아송 분포.

  • X ~ Po(λ)
  • 특정 구간에 r번 발생이 있을 확률은 P(X=r) = (e^(-λ)*λ^r) / r!
  • 기댓값, 분산 : λ
  • 푸아송 분포는 람다가 커질수록 람다를 기준으로 좌우대칭으로 생긴다.

 

Chapter 08. 정규분포

1. 연속데이터 : 이산데이터는 정확한 값을 취한다. 연속확률변수들이 갖는 확률분포를 설명하기 위해 확률밀도함수를 사용할 수 있음.

2. 확률밀도함수의 전체 면적은 1. 그러므로 f(x)의 확률밀도함수 구할 수 있음.

  • 연속확률분포에서 확률을 구하는 방법은 확률밀도함수의 면적을 계산하는 것과 같음.

3. 정규분포와 표준정규분포

  • 자연적인 데이터들은 대부분 정규분포를 따른다.
  • 정규분포는 연속데이터를 위한 이상적인 모델이다.
  • x ~ M(u, 시그마^2)
  • 확률테이블을 통해 면적을 계산함. = 표준정규분포에 대해서 제공.=> z = (X - u) / (시그마)
  • => N(0, 1) 평균이 0이고 분산이 1인 표준 정규분포. 표준화 한다고 표현함.
  • 확률테이블은 ~보다 작을 확률을 제공해줌. 확률분포 그림에서 해당 범위 전부분!!

4. 두 개의 정규분포 합치기

  • 두 확률변수가 독립이면 그냥 더해주고 빼도됨, 분산도 더해주고 빼주면 됨.
    => 두 독립된 변수라면 더해주면 됨. X + Y ~ N (평균합, 분산합)

5. 정규분포의 선형관계 및 독립관측

  • 관계가 있는 경우.. 선형 관계를 이용하기 : aX + b ~ N (au + b, a^2*(시그마)^2)
  • 독립관측의 경우 x1 + x2 + ... + xn : ~ N(xu, n*(시그마)^2)

6. 이항분포의 정규화

  • 일반적으로 nq와 np가 모두 5보다 클 때 정규분포를 이항분포로 개략적으로 대체할 수 있다.

7. 연속성보정 : 정규분포와 이항분포는 다름. 이항분포가 많아지면 대체할 수 있다고 했지만 보정이 필요함.

  • 연속성 보정을 통해서 구체적인 점수를 지정해서 확률 계산가능. (예시 참고)

8. 정규분포를 이용해서 푸아송분포 근사화하기

  • 푸아송분포의 람다값이 작으면 좌우 대칭이 아니라서 정규분포로 근사화할 수 없음. 람다가 15 이상은 돼야함.
  • 연속성보정 값으로 표준 점수를 구하면 됨.
728x90