chapter 10. 통계표본사용하기
1. 통계적 모집단 population : 측정, 학습, 분석하려는 전체를 의미
2. 통계적 표본 sample : 전체 검사를 하는 대신 표본 샘플 검사를 할 수 있음. 모집단에 선택된 일부.
- 표본은 모집단을 잘 표현할 수 있도록 선택되어야 함.
- 모집단의 표본에 대해 학습하고 조사하는 것을 표본조사라고 함.
3. 표본이 작동하는 방식 : 좋은 표본은 모집단의 특성을 잘 반영하는 것을 고르는 것.
- 표본이 잘못되는 경우는 비슷한 것만 추출한 경우, 치우쳐 있는 경우...
= 검증 주제를 명확하게 하면 목표 모집단이 정해짐 > 표본 단위를 정의 > 표본의 편향 bias을 조심
4. 표본 고르는 방식
- 단순 무작위 추출 : 선택될 가능성이 모두 같은 상태에서 임의로 고르기. 샘플을 다시 모집단으로 돌려놓는 복원 추출, 돌리지 않는 비복원 추출
- 계층화 추출법 : 계층으로 나눠진 케이스에 비율을 맞춰서 일부씩 가져옴
- 군집 추출
chapter 11. 모집단과 표본 추정하기
1. 모집단 예측하기 - 점추정
- 평균과 분산을 계산한 것은 모집단의 값을 구한 것임.
- 점추정은 모집단의 파라미터의 근사치를 구하는 것.
- 점추정 결과로 얻은 모집단 추정값은 hat 기호로 구분한다. 뮤(u)는 모집단의 평균, 뮤 햇은 (표본집단으로 모집단을 추정한)추정값의 평균...
- 표본의 평균 : 표본이 잘 추출된거면 모집단의 평균과 같다고 봄.
- 표본의 분산 : 분산은 데이터들의 평균으로부터 거리의 평균이다. 모집단보다 수가 적어서 그 거리가 다소 적을 수 있음. 표본에서 추정한 분산은 불편분산이라고 함. (n이 아니라 n-1을 나눔) = s스퀘어는 표본에서 추정한 모집단의 분산.
2. 비율의 분포
- 변수 X가 성공의 횟수면 확률 p는 성공의 비율 = 이항분포
- 표본집단의 비율에서 모집단 비율 예측 : 표본이 잘 잡혀있으면 표본비율은 모집단 비율과 같음.
- 모집단이 알려져있는 상태에서 특정한 집단의 확률을 계산.
- Var(Ps) = Var(X) / n^2 = npq / n^2 = pq/n
- E(Ps) = E(X)/n = np / n = p
- 결국 표본집단 비율에서는 표본 크기가 중요
- n이 충분이 크면 정규분포를 따르는데, 통계학자들은 30 정도로 보고 있음 : Ps ~ N(p, pq/n)
- Ps 연속성 보정 필요 : 정규분포에서 특정 확률을 보기 위한 기준은 연속이기 때문에, 이산확률에서는 연속성을 보정해야 함.
3. 평균값의 표본분포
- 무작위 선택 봉지는 독립관측이다.
- 평균값의 표본분포는 표본의 평균값에 대한 확률을 계산할 수 있다.
- 크기가 n인 모든 표본이 갖는 평균값의 기대치는 모집단의 평균 : E(_X) = u
- 분산은 Var(_X) = 시그마^2 / n
- 평균값의 분산은 n이 커짐에 따라 작아짐. = 표본 안에 더 많은 항목이 담겨 있을수록 표본 평균값은 모집단의 평균을 추정하는데 더 믿을만한 값이 된다는 뜻.
- 모집단이 정규분포를 따르지 않을 경우에는? 중심극한정리 >>
* 중심극한정리 : 표본의 크기가 충분히 크면(보통 30이상) 샘플의 분포가 근사적으로 정규분포를 따름.
Chapter 12. 신뢰구간 구성하기
1. 신뢰구간
- 모집단에 대해서는 점 추정으로 예측하는 것이 최선이다. 그러나 표본은 표본이기 때문에 문제가 발생할 수 있어서 구간을 설정해서 해당 구간 내에서는 평균이 어떠할 것이라고 추정 가능하다.
- 신뢰구간 찾기 : 모집단 통계 선택 > 표본분포 찾기 > 신뢰수준 정하기 > 신뢰한계 찾기
1) 모집단 통계 선택 : 신뢰구간 설정을 위한 목표 고르기. 모집단 평균값에 대한 신뢰구간 설정.
2) 표본분포 찾기 : 평균을 찾기 위함이므로 표본의 분산과 샘플 크기를 활용해서 모집단의 분산을 추정함.
3) 신뢰수준 정하기 : 구간 내 있을 확률. 신뢰수준은 설정한 신뢰구간이 실제 목표의 모집단 통계를 포함하는 사실을 얼마나 확신하는지를 알려줌.
4) 신뢰한계 찾기 : 확률분포표로 구해주기. 신뢰구간으로 가장 많이 쓰는 c의 값
2. t-분포 : 표본의 갯수가 많이 작은 경우. t분포는 정규분포에 비해 꼬리가 길다. 좌우 대칭이고 파라미터는 자유도인 v(=n-1)이다.
- t-분포를 위한 표준점수를 찾기
- t 분포표로 t값을 찾을 수 있음. (자유도와 신뢰 구간을 바탕으로)
Chapter 13. 가설검정 이용하기
1. X ~ B(15, 0.9) = 이항분포인 예시의 검정 : 가설 검정 6단계
1) 검정 가설을 결정
- 영가설 (null hypothesis) 검정하려는 주장. H0 : p = 0.9
- 대립가설 (alternate hypothesis) 반대 주장. H1 : p < 0.9
2) 검정 통계를 선택
- 이항 분포를 선택
3) 기각역을 결정
- 기각역 : 영가설에 반하는 증거를 나타내는 값들의 집합
- 기각치 : 기각역의 경계값. c값
4) 검정 통계를 위한 p-value를 확인
- 유의수준 : 영가설을 기각하기 전에 표본의 결과가 얼마나 희박한지 측정하는 것.
- 단측검정 : H0 : p = 0.9, H1 : p < 0.9
- 양측검정 : H0 : p = 0.9, H1 : p < 0.9 or. p > 0.9
- p-value : 표본에 어떤 값이 있다 했을 때 그 값 자신을 포함해서 그 값에 이르는 지점까지 여러 값들을 얻을 확률이 유의수준보다 작을 확률을 의미. 즉 기각역 안에 존재할 확률.
- 기각역 안에 들어가면 영가설을 기각함. 기각역 밖에 있으면 영가설을 채택함.
5) 표본 결과가 기각역 안에 있는지를 확인
6) 결정
2. X ~ N(90, 9) = 정규분포인 예시의 검정 : 가설 검정 6단계
- p값 구하기 z = (80-90)/3 = -3.33
- p(Z < z) = p(Z < -3.33) = 0.0004 (5%이내이므로 영가설 기각. 대립가설 채택)
3. 1종오류, 2종오류
1) 1종오류 : 영가설 맞는데 틀렸다고 하는것
- 유의수준보다 크면 영가설이 맞는데...
2) 2종오류 : 영가설 틀렸는데 맞다고 하는것
3) 가설검정의 검정력 : 잘못된 영가설을 올바르게 기각하는 확률
4) X ~ N(90, 9) 문제에서...
(1) 1종오류의 확률 : 0.05 (유의수준과 동일)
(2) 2종오류의 확률 : 2종오류의 대립가설이 특정한 값을 지정하는 경우에만 확률 계산이 가능함.
ex) H0 : p = 0.9 , H1 : p = 0.8 일때...
Chapter 14. 카이제곱 분포
1. 기댓값과 관측값을 통해서 검증하기 : 카이제곱 검사
2. 카이제곱 분포의 주요 용례
- 실제값과 기댓값 차이를 감지.
- 어떤 데이터 집합이 어떤 분포에 얼마나 잘 맞는지 검사.
- 두 변수의 독립성을 검사하는데 사용.
- 카이분포 파라미터(자유도)로 v(뉴)를 사용.
- v = 클래스의 수 - 제약의 수 = 기대도수의 수 : (제약) 관측값 합과 기댓값 합은 같아야함.
- v의 값이 커질 수록 정규분포에 가까워짐
3. 유의성? 카이제곱으로 검정 수행할 때는 기각역이 상위 꼬리에 놓여있는 단측검정.
- 검정통계가 상위꼬리의 기각역에 놓여있는지 여부를 확인함으로써 기대하는 분포로부터 나온 결과가 얼마나 실제에 가까운지 여부를 측정할 수 있는 것.
4. 카이제곱 확률 테이블 사용 : 세로는 v, 가로는 알파(유의성)
5. 검정을 수행할 영가설? 대립가설? : 실제 확률이 우리가 예측한 확률분포를 따른다~ 따르지 않는다~
'데이터 어쩌구 > 통계 ・ 수학' 카테고리의 다른 글
[이론] 기초 : 중심 경향과 분포 (0) | 2021.10.19 |
---|---|
[Python 통계] chapter 14 군집분석 (0) | 2021.10.05 |
[이론] 기초 수학 (0) | 2021.09.28 |
[Python 통계] chapter 13 분류예측분석 (0) | 2021.09.26 |
[Python 통계] chapter 12 요인분석 (0) | 2021.09.26 |