본문 바로가기
데이터 어쩌구/통계 ・ 수학

[이론] 기초 : 모집단과 표본

by annmunju 2021. 10. 26.

chapter 10. 통계표본사용하기

1. 통계적 모집단 population : 측정, 학습, 분석하려는 전체를 의미

2. 통계적 표본 sample : 전체 검사를 하는 대신 표본 샘플 검사를 할 수 있음. 모집단에 선택된 일부.

  • 표본은 모집단을 잘 표현할 수 있도록 선택되어야 함.
  • 모집단의 표본에 대해 학습하고 조사하는 것을 표본조사라고 함.

3. 표본이 작동하는 방식 : 좋은 표본은 모집단의 특성을 잘 반영하는 것을 고르는 것.

  • 표본이 잘못되는 경우는 비슷한 것만 추출한 경우, 치우쳐 있는 경우...

= 검증 주제를 명확하게 하면 목표 모집단이 정해짐 > 표본 단위를 정의 > 표본의 편향 bias을 조심

4. 표본 고르는 방식

  • 단순 무작위 추출 : 선택될 가능성이 모두 같은 상태에서 임의로 고르기. 샘플을 다시 모집단으로 돌려놓는 복원 추출, 돌리지 않는 비복원 추출
  • 계층화 추출법 : 계층으로 나눠진 케이스에 비율을 맞춰서 일부씩 가져옴
  • 군집 추출

 

chapter 11. 모집단과 표본 추정하기

1. 모집단 예측하기 - 점추정

  • 평균과 분산을 계산한 것은 모집단의 값을 구한 것임.
  • 점추정은 모집단의 파라미터의 근사치를 구하는 것.
  • 점추정 결과로 얻은 모집단 추정값은 hat 기호로 구분한다. 뮤(u)는 모집단의 평균, 뮤 햇은 (표본집단으로 모집단을 추정한)추정값의 평균...
  • 표본의 평균 : 표본이 잘 추출된거면 모집단의 평균과 같다고 봄.
  • 표본의 분산 : 분산은 데이터들의 평균으로부터 거리의 평균이다. 모집단보다 수가 적어서 그 거리가 다소 적을 수 있음. 표본에서 추정한 분산은 불편분산이라고 함. (n이 아니라 n-1을 나눔) = s스퀘어는 표본에서 추정한 모집단의 분산.

2. 비율의 분포

  • 변수 X가 성공의 횟수면 확률 p는 성공의 비율 = 이항분포
    • 표본집단의 비율에서 모집단 비율 예측 : 표본이 잘 잡혀있으면 표본비율은 모집단 비율과 같음.
  • 모집단이 알려져있는 상태에서 특정한 집단의 확률을 계산.
    • Var(Ps) = Var(X) / n^2 = npq / n^2 = pq/n
    • E(Ps) = E(X)/n = np / n = p
  • 결국 표본집단 비율에서는 표본 크기가 중요
    • n이 충분이 크면 정규분포를 따르는데, 통계학자들은 30 정도로 보고 있음 : Ps ~ N(p, pq/n)
  • Ps 연속성 보정 필요 : 정규분포에서 특정 확률을 보기 위한 기준은 연속이기 때문에, 이산확률에서는 연속성을 보정해야 함. 

3. 평균값의 표본분포

  • 무작위 선택 봉지는 독립관측이다.
  • 평균값의 표본분포는 표본의 평균값에 대한 확률을 계산할 수 있다.
    • 크기가 n인 모든 표본이 갖는 평균값의 기대치는 모집단의 평균 : E(_X) = u
    • 분산은 Var(_X) = 시그마^2 / n
  • 평균값의 분산은 n이 커짐에 따라 작아짐. = 표본 안에 더 많은 항목이 담겨 있을수록 표본 평균값은 모집단의 평균을 추정하는데 더 믿을만한 값이 된다는 뜻.
  • 모집단이 정규분포를 따르지 않을 경우에는? 중심극한정리 >>

* 중심극한정리 : 표본의 크기가 충분히 크면(보통 30이상) 샘플의 분포가 근사적으로 정규분포를 따름.

 

 

Chapter 12. 신뢰구간 구성하기

1. 신뢰구간

  • 모집단에 대해서는 점 추정으로 예측하는 것이 최선이다. 그러나 표본은 표본이기 때문에 문제가 발생할 수 있어서 구간을 설정해서 해당 구간 내에서는 평균이 어떠할 것이라고 추정 가능하다.
  • 신뢰구간 찾기 : 모집단 통계 선택 > 표본분포 찾기 > 신뢰수준 정하기 > 신뢰한계 찾기

1) 모집단 통계 선택 : 신뢰구간 설정을 위한 목표 고르기. 모집단 평균값에 대한 신뢰구간 설정.

2) 표본분포 찾기 : 평균을 찾기 위함이므로 표본의 분산과 샘플 크기를 활용해서 모집단의 분산을 추정함.

3) 신뢰수준 정하기 : 구간 내 있을 확률. 신뢰수준은 설정한 신뢰구간이 실제 목표의 모집단 통계를 포함하는 사실을 얼마나 확신하는지를 알려줌.

4) 신뢰한계 찾기 : 확률분포표로 구해주기. 신뢰구간으로 가장 많이 쓰는 c의 값

2. t-분포 : 표본의 갯수가 많이 작은 경우. t분포는 정규분포에 비해 꼬리가 길다. 좌우 대칭이고 파라미터는 자유도인 v(=n-1)이다.

  • t-분포를 위한 표준점수를 찾기
  • t 분포표로 t값을 찾을 수 있음. (자유도와 신뢰 구간을 바탕으로)

 

Chapter 13. 가설검정 이용하기

1. X ~ B(15, 0.9) = 이항분포인 예시의 검정 : 가설 검정 6단계

1) 검정 가설을 결정

  • 영가설 (null hypothesis) 검정하려는 주장. H0 : p = 0.9
  • 대립가설 (alternate hypothesis) 반대 주장. H1 : p < 0.9

2) 검정 통계를 선택

  • 이항 분포를 선택

3) 기각역을 결정

  • 기각역 : 영가설에 반하는 증거를 나타내는 값들의 집합
  • 기각치 : 기각역의 경계값. c값

4) 검정 통계를 위한 p-value를 확인

  • 유의수준 : 영가설을 기각하기 전에 표본의 결과가 얼마나 희박한지 측정하는 것.
    • 단측검정 : H0 : p = 0.9, H1 : p < 0.9
    • 양측검정 : H0 : p = 0.9, H1 : p < 0.9 or. p > 0.9
  • p-value : 표본에 어떤 값이 있다 했을 때 그 값 자신을 포함해서 그 값에 이르는 지점까지 여러 값들을 얻을 확률이 유의수준보다 작을 확률을 의미. 즉 기각역 안에 존재할 확률.
  • 기각역 안에 들어가면 영가설을 기각함. 기각역 밖에 있으면 영가설을 채택함.

5) 표본 결과가 기각역 안에 있는지를 확인

6) 결정

 

2. X ~ N(90, 9) = 정규분포인 예시의 검정 : 가설 검정 6단계

  • p값 구하기 z = (80-90)/3 = -3.33
  • p(Z < z) = p(Z < -3.33) = 0.0004 (5%이내이므로 영가설 기각. 대립가설 채택)

 

3. 1종오류, 2종오류

1) 1종오류 : 영가설 맞는데 틀렸다고 하는것

  • 유의수준보다 크면 영가설이 맞는데...

2) 2종오류 : 영가설 틀렸는데 맞다고 하는것

3) 가설검정의 검정력 : 잘못된 영가설을 올바르게 기각하는 확률

4) X ~ N(90, 9) 문제에서...

   (1) 1종오류의 확률 : 0.05 (유의수준과 동일)

   (2) 2종오류의 확률 : 2종오류의 대립가설이 특정한 값을 지정하는 경우에만 확률 계산이 가능함.

ex) H0 : p = 0.9 , H1 : p = 0.8 일때...

 

Chapter 14. 카이제곱 분포

1. 기댓값과 관측값을 통해서 검증하기 : 카이제곱 검사

2. 카이제곱 분포의 주요 용례

  • 실제값과 기댓값 차이를 감지.
  • 어떤 데이터 집합이 어떤 분포에 얼마나 잘 맞는지 검사.
  • 두 변수의 독립성을 검사하는데 사용.
  • 카이분포 파라미터(자유도)로 v(뉴)를 사용.
  • v = 클래스의 수 - 제약의 수 = 기대도수의 수 : (제약) 관측값 합과 기댓값 합은 같아야함.
    • v의 값이 커질 수록 정규분포에 가까워짐

3. 유의성? 카이제곱으로 검정 수행할 때는 기각역이 상위 꼬리에 놓여있는 단측검정.

  • 검정통계가 상위꼬리의 기각역에 놓여있는지 여부를 확인함으로써 기대하는 분포로부터 나온 결과가 얼마나 실제에 가까운지 여부를 측정할 수 있는 것.

4. 카이제곱 확률 테이블 사용 : 세로는 v, 가로는 알파(유의성)

5. 검정을 수행할 영가설? 대립가설? : 실제 확률이 우리가 예측한 확률분포를 따른다~ 따르지 않는다~

728x90