본문 바로가기
데이터 어쩌구/ML DL 공부

[ProDS] 통계 이론 및 데이터 시각화

by annmunju 2022. 3. 15.

1. 확률의 개념과 특징

  1) 라플라스의 확률 : n개 (유한한) 실험결과의 표본 공간에서 m(m <= n)개의 실험 결과로 구성된 사건 A의 확률 : P(A) = m/n

  2) 리차드 확률 (상대적 비율에 의한 접근)

    (1) 방법 : m/n의 반복 횟수 n을 무한하게 증가시키고 사건 A의 상대빈도가 수렴하는 값을 확률로 정의

  *) 확률의 공리 : P(A) >= 0, P(S) = 1, 상호 배반인 경우 P(A1 U A2 U ... ) = P(A1) + P(A2) + ...

  3) 콜모그로프의 확률(공리적 접근방식)

    (1) 정의 : 표본공간을 정의역으로 하며 (위 세가지) 공리를 만족하는 함수를 확률로 정의

  4) 특징

    (1) 여사건, 곱사건(교집합), 합사건(합집합)

    (2) 조건부 확률 : B사건 하에서 A사건이 일어날 확률 : P(A|B)

    (3) 독립사건 : P(A | B) = P(A), P(A 교집합 B) = P(A) * P(B)

 

2. 베이즈 정리 : 결과 A, 원인 B

  1) 표본공간의 분할 : 어떤 결과 확률이 k개의 원인들 중에 하나로 결정 되어야 함. 모든 k개의 원인들의 합은 전체 표본공간 S와 같음. 원인들은 상호 배반임.

  2) 전확률공식 : 표본공간의 분할 조건을 만족할 때, 결과 확률은 결과(교집합)원인1 + 결과(교집합)원인2 ... 와 같음. 원인들은 상호 배반이기 때문에!

  1+2) 표본공간의 분할(원인의 확률) + 전확률공식(결과의 확률) = 베이즈정리

베이즈정리

    = 사건 A가 일어났다는 조건 하에서 사건 Bi가 일어날 확률

    -> 원인별 확률과 각각의 Bi사건 하에서 A사건이 일어날 확률

 

3. 확률과 확률분포

  1) 확률변수 : 표본공간에서 정의된 실수값 함수

    (1) 이산형 확률변수(pnf) : 확률변수의 실수 값을 셀 수 있음. -> 확률질량함수

    (2) 연속형 확률변수(pdf) : 확률변수의 실수 값을 셀 수 없음. -> 확률밀도함수

           -> 특정 값의 확률은 구할 수 없음. 범위 내 포함될 확률만 계산 가능.

    (3) 누적분포함수 : 모든 X에 대한 f(x)의 적분 값이 됨.

  2) 확률분포의 특성치

    (1) 기대값 E(X) = μ : 분포의 무게중심, 중심 위치를 나타냄. 

      - (이산형) 모든 x에 대해서 x * f(x)를 더한 값

      - (연속형) 모든 x 범위에 대해서 x * f(x) 면적을 더한 값

    (2) 분산 V[X] : 분포의 산포를 나타냄 

    (3) 표준편차 S[X] = σ : 분산의 제곱근. 단위가 보정됨

  3) 이항분포

    (1) 베르누이 시행

      - f(x) = P(X = x) = n번 반복했을 때 성공의 횟수로 정의 됨.  X~Bin[n, p] 

      - 모수 : n, p 

      - 기대값 : E[X] = np

      - 분산 : V[X] = np(1 - p)

    (2) 포아송 분포 : 단위 시간에 발생 횟수 정의 (일반적으로 시간이 갈 수록 확률은 줄어들어듬) X~POI[m]

      - 모수 : m (단위 시간에 한번 발생할 확률)

      - 기대값 , 분산 : E[X] = V[X] = m

  4) 연속분포 (확률밀도함수를 따름)

    (1) 지수분포 : 단위구간에서 평균발생횟수 m인 포아송을 따르는 사건이 일어나고 그 다음 또 일어날 때 까지 걸리는 시간(간격)을 W로 정의됨 X~EXP[λ]

      - 모수 : λ <-> 포아송과 역 관계 λ = 1/m

      - 기대값 , 분산 : E[X] = V[X] = λ

    (2) 감마분포 : k번째 사건이 발생할 때까지 걸리는 시간. X~GAMMA[k, θ]

      - 모수 : k, θ(척도:스케일 결정 모수)

      - 기대값 : E[X] =

      - 분산 : V[X] = kθ^2

4. 정규분포 (가우시안 분포) X~N[μ, σ^2]

      - 모수 : μ, σ^2

      - 기대값 : E[X] = μ

      - 분산 : V[X] = σ^2

  1) 표준 정규분포 : 평균이 0, 분산이 1.  Z = X-μ / σ ~ N[0, 1]

  2) 카이제곱 분포 X~χ^2[k] : 자유도가 k(표준정규의 개수)

      - 모수 : k

      - 기대값 : E[X] = k

      - 분산 : V[X] = 2k

     > 오른쪽으로 치우친 비대칭 구조임. 자유도가 커지면 넓은 분산을 가지고 정규분포 모양에 가까워짐

  3) t 분포 : Z~N[0,1](표준정규 분포), U~χ^2[k](카이제곱 분포), Z와 U가 서로 독립이라고 할 때

가 따르는 분포를 자유도가 k인 t분포라고 정의함

* X~t[k] 라고 한다.

0을 중심으로 대칭하는 종모양. (표준정규분포보다 꼬리가 두꺼움)

- 기대값 : E[X] = 0

- 분산 : V[X] = k / (k-2) (단 k > 2) <- 자유도 k가 크면 표준정규분포로 수렴

 

  4) F 분포 : U~χ^2[k1], V~χ^2[k2] (두개의 카이제곱분포) 서로 독립일 때

가 따르는 분포를 자유도가 k1, k2인 F분포라고 정의함

* X~F[k1, k2] 라고 한다.

카이제곱 분포처럼 오른쪽으로 치우친 비대칭 구조.

- 기대값 : E[X] = k2 / (k2 -2) (단 k2 > 2)

 

- 분산 : V[X] = {2*k2^2(k1+k2-2)} / {k1(k2-2)^2 * (k2-4)}

 

 

4. 탐색적 데이터 분석 

  1) 데이터 시각화

    (1) 질적 자료 : (1개 변수) bar chart, pie chart, (2개 변수) heatmap, Stacked Column Chart - 누적 세로 막대형

    (2) 양적 자료 : (1개 변수) histogram, box plot, line chart, QQ plot, (2개 변수) scatter plot

      * QQ plot : 각각의 표본들의 Q 위치를 보고 표준 정규분포와 비교해서 해당 결과를 누적으로 기록.

  2) 수치적 기술 통계

    (1) 중심 위치 척도 : 평균, 중앙값(=중위수), 최빈값

    (2) 상대적 위치 척도 : 사분위수

    (3) 변동성 척도 : 범위, 사분위간 범위, 표본 분산, 표본 표준편차, 변동계수(cv = (표준편차)/(평균))

    (4) 형태 척도 : 왜도(치우침), 첨도(뾰족함)

  3) 선형적 연관성

    (1) 표본 공분산 (Sxy > 0 양의 선형관계, Sxy < 0 음의 선형관계)

      - 선형관계의 강도 : -Sx*Sy <= Sxy <= Sx*Sy : 각각의 표준편차 곱 * (-1) <= 공분산 <= 각각의 표준편차 곱.

         공분산과 각각의 표준편차 곱이 가까울 수록 더 강한 선형관계를 가지고 있다고 판단할 수 있음.

      - 공분산은 x와 y의 측정 단위에 의존함. 단위 변환하는 경우 공분산 값은 변화함. (두 변수의 강도나 방향은 변하지 않는데 숫자만 커질 수 있음. 측정 지표로써는 불편할 수 있음)

    (2) 표본 상관계수 (피어슨 상관계수) : rxy = Sxy / (Sx*Sy) (rxy > 0 양의 선형관계, rxy < 0 음의 선형관계)

      - 선형관계의 강도 : |rxy| ~~ 0 강도 약함, |rxy| ~~ 1 강도 강함. (측정 단위에 의존하지 않음)

    (3) 순위를 이용한 상관계수 : 스피어만 상관계수 (원 자료값에 순위를 구하고 그에 대한 피어슨 상관계수를 구함),

                                               캔달 상관계수 (두 변수를 골라 순위의 일치 정도를 측정. 음인지 양인지 측정해보고 이를 판단해 계수 측정)

 

728x90

'데이터 어쩌구 > ML DL 공부' 카테고리의 다른 글

[LLM] 프롬프트 엔지니어링  (0) 2024.03.18
[ProDS] 머신러닝 이론 및 데이터 처리  (0) 2022.03.19
[ML] 지도학습 : 평가지표  (0) 2022.03.07
[ML] 지도학습 - KNN  (0) 2022.03.02
[ML] 기계학습 개요  (0) 2022.03.02