본문 바로가기
데이터 어쩌구/통계 ・ 수학

[이론] (2) 통계 이론 기초

by annmunju 2020. 12. 23.

<1장 통계학의 기초개념>

1. 통계학

2. 모집단과 표본

3. 모수와 통계량

4. 기술통계학과 추측통계학

5. 모집단, 표본, 모수, 통계량의 관계

6. 모수 통계학(모집단에 대한 가정이 있음), 비모수 통계학(가정이 없음)

 

<2장 자료의 정리>

1. 변수와 자료

 - 양적 자료 (이산적 변수 / 연속적 변수)

 - 질적 자료

2. 변수의 수준 : 명목 / 서열 / 등간 / 비율변수 

 - 연구 목적마다 달리 적용

 - 높은 수준에서 낮은 수준으로 변환 가능하나 낮은 수준에서 높은 수준으로 변환 불가

3. 도수분포표 : 수집된 자료를 등급(범주)로 분류, 빈도수를 정리한 표

 - 상대적 빈도 : f(c) / n (n: 전체 관찰 수, f(c): 각 범주에 속하는 빈도)

     : 전체 중 해당하는 것의 비율 

 - 누적 빈도 : 등급에 해당하는 빈도를 총 더한 값

 - 상대적 누적 빈도 : 누적빈도 / n

 - 연속적 자료 정리 : 소숫점 제외하고 구분하거나 범위 지정해서 빈도를 세거나 등..

 - 등급의 수와 구간의 결정 : 상황에 따라 다름 (많이 나눌 수록 정확, 적게 나누면 대략) (5<등급개수<20)

 - 도수분포표 작성요령

   (1) 모든 자료가 빠지지 않게 (극단적 수치 포함)

   (2) 극단적 수치를 포함하는 양 끝의 등급을 제외하고 나머지 구간을 같도록

   (3) 등급은 서로 중복되지 않아야 한다.

   (4) 등급은 연속적으로 표시 (빈도 0이라도 포함)

   (5) 등급 구간은 홀수가 좋음 (중간점을 정하기 쉬움)

   (6) 눈에 잘 띄는 숫자 (10, 5 단위)

 

<3장 분포의 특성>

1. 집중화 경향 : 최빈값, 중앙값, 산술평균, 가중산술평균( ∑(빈도x값)/∑빈도 )

2. 분산도 (흩어진 정도) 

 - 범위 : 가장 큰 수치와 가장 작은 수치의 차

 - 평균편차 : 관찰값과 산술평균 차이들의 평균

 - 분산과 표준편차 : 분산 = ∑(값-산술평균)^2 / 관찰값의 수 = 표준편차^2

3. 비대칭도 (분포의 모양이 얼마나 벗어났는가)

 - 피어슨의 비대칭도

 

<4장 확률이론>

1. 정의 

 - 상대빈도(무한 시행시 전체 시행횟수에서 그 사건이 나타나는 빈도수), 동등발생 (전체 경우 중 특정 사건이 차지하는 경우의 구성비율)

2. 집합이론

3. 확률법칙

 - 덧셈 뺄셈 법칙

 - 조건부 확률 P(B|A) = P(A∩B)/P(A)

 - 곱셈법칙 : P(A∩B) = P(B) X P(A|B) = P(A) X P(B|A)

4. 독립사건과 종속사건 

 - 독립사건의 곱셈법칙 : P(A∩B) = P(A) X P(B)

 - 복원추출 독립사건 (공 꺼내고 다시 집어넣고 꺼내기)

 - 비복원추출 종속사건 (공 꺼내고 또 꺼내기)

5. 베이즈정리 (사전에 알고 있는 정보에 기준을 두고 어떤 사건이 일어날 확률을 계산하는 이론)

 

<5장 확률분포>

1. 확률 변수 : 일정 확률을 가지고 발생하는 사건에 수치를 부여한 것. X로 표시

2. 확률 분포 : 어떤 확률 변수가 취할 수 있는 모든 값과 이를 확률로 표시한 것.

3. 이산확률변수와 연속확률변수

 - 셀수 있는 확률 변수 / 구간 내 실수(무한)의 확률 변수

4. 확률 함수와 확률 밀도함수

 - 확률 함수 : 확률 변수가 취할 수 있는 수치에 대한 확률값을 알려주는 함수

 - 확률 밀도함수 : 연속확률분포의 양상을 나타낸 곡선 식으로 표현. 확률은 f(x)와 X축 사이 구간의 넓이.

5. 확률분포의 기댓값과 분산

 - 기댓값 = 집중화 경향, 평균값

 - 분산과 표준편차

6. 두 확률변수의 결합분포

 - 결합확률 분포 : 두 개 이상 확률변수가 관련된 확률 분포

 - 주변확률 분포 : X와 Y의 결합분포에서 X 또는 Y의 어느 하나만의 확률분포를 말함

 - 공분산 : 두 확률변수의 분포가 결합될 때 그 결합 확률 분포의 분산을 측정하는 것으로 Cov(X, Y)로 표현

 - 공분산이 0인 것은 두 확률 변수 사이에 비례적 선형관계를 발견할 수 없는 경우

 - 비례 관계 정도에 따라 공분산 크기 바뀜

 

<6장 이산확률분포> 

1. 이항분포

 - 베르누이 사행 (성공/실패) : p=P(성공) , q=P(실패)=1-p, p+q=1 : 독립시행

 - 이항분포의 계산

 - 이항분포표의 이용 : n, p 값을 이용해 확률값 찾음

 - 형태 : p=0.5일때 대칭 모양, n이 클수록 대칭에 가까운 모형

 - 기댓값과 분산

2. 다항분포 

 - 다항분포의 계산

3. 초기하분포

 - 성공 확률은 언제나 일정하다 (독립시행)

   성공 확률이 일정하지 않다 (종속시행) 에 적용하는 확률 모형이 초기하 분포

 - 초기하분포 계산 (N명중에 X명을 뽑는 경우)

 

728x90