<1장 통계학의 기초개념>
1. 통계학
2. 모집단과 표본
3. 모수와 통계량
4. 기술통계학과 추측통계학
5. 모집단, 표본, 모수, 통계량의 관계
6. 모수 통계학(모집단에 대한 가정이 있음), 비모수 통계학(가정이 없음)
<2장 자료의 정리>
1. 변수와 자료
- 양적 자료 (이산적 변수 / 연속적 변수)
- 질적 자료
2. 변수의 수준 : 명목 / 서열 / 등간 / 비율변수
- 연구 목적마다 달리 적용
- 높은 수준에서 낮은 수준으로 변환 가능하나 낮은 수준에서 높은 수준으로 변환 불가
3. 도수분포표 : 수집된 자료를 등급(범주)로 분류, 빈도수를 정리한 표
- 상대적 빈도 : f(c) / n (n: 전체 관찰 수, f(c): 각 범주에 속하는 빈도)
: 전체 중 해당하는 것의 비율
- 누적 빈도 : 등급에 해당하는 빈도를 총 더한 값
- 상대적 누적 빈도 : 누적빈도 / n
- 연속적 자료 정리 : 소숫점 제외하고 구분하거나 범위 지정해서 빈도를 세거나 등..
- 등급의 수와 구간의 결정 : 상황에 따라 다름 (많이 나눌 수록 정확, 적게 나누면 대략) (5<등급개수<20)
- 도수분포표 작성요령
(1) 모든 자료가 빠지지 않게 (극단적 수치 포함)
(2) 극단적 수치를 포함하는 양 끝의 등급을 제외하고 나머지 구간을 같도록
(3) 등급은 서로 중복되지 않아야 한다.
(4) 등급은 연속적으로 표시 (빈도 0이라도 포함)
(5) 등급 구간은 홀수가 좋음 (중간점을 정하기 쉬움)
(6) 눈에 잘 띄는 숫자 (10, 5 단위)
<3장 분포의 특성>
1. 집중화 경향 : 최빈값, 중앙값, 산술평균, 가중산술평균( ∑(빈도x값)/∑빈도 )
2. 분산도 (흩어진 정도)
- 범위 : 가장 큰 수치와 가장 작은 수치의 차
- 평균편차 : 관찰값과 산술평균 차이들의 평균
- 분산과 표준편차 : 분산 = ∑(값-산술평균)^2 / 관찰값의 수 = 표준편차^2
3. 비대칭도 (분포의 모양이 얼마나 벗어났는가)
- 피어슨의 비대칭도
<4장 확률이론>
1. 정의
- 상대빈도(무한 시행시 전체 시행횟수에서 그 사건이 나타나는 빈도수), 동등발생 (전체 경우 중 특정 사건이 차지하는 경우의 구성비율)
2. 집합이론
3. 확률법칙
- 덧셈 뺄셈 법칙
- 조건부 확률 P(B|A) = P(A∩B)/P(A)
- 곱셈법칙 : P(A∩B) = P(B) X P(A|B) = P(A) X P(B|A)
4. 독립사건과 종속사건
- 독립사건의 곱셈법칙 : P(A∩B) = P(A) X P(B)
- 복원추출 독립사건 (공 꺼내고 다시 집어넣고 꺼내기)
- 비복원추출 종속사건 (공 꺼내고 또 꺼내기)
5. 베이즈정리 (사전에 알고 있는 정보에 기준을 두고 어떤 사건이 일어날 확률을 계산하는 이론)
<5장 확률분포>
1. 확률 변수 : 일정 확률을 가지고 발생하는 사건에 수치를 부여한 것. X로 표시
2. 확률 분포 : 어떤 확률 변수가 취할 수 있는 모든 값과 이를 확률로 표시한 것.
3. 이산확률변수와 연속확률변수
- 셀수 있는 확률 변수 / 구간 내 실수(무한)의 확률 변수
4. 확률 함수와 확률 밀도함수
- 확률 함수 : 확률 변수가 취할 수 있는 수치에 대한 확률값을 알려주는 함수
- 확률 밀도함수 : 연속확률분포의 양상을 나타낸 곡선 식으로 표현. 확률은 f(x)와 X축 사이 구간의 넓이.
5. 확률분포의 기댓값과 분산
- 기댓값 = 집중화 경향, 평균값
- 분산과 표준편차
6. 두 확률변수의 결합분포
- 결합확률 분포 : 두 개 이상 확률변수가 관련된 확률 분포
- 주변확률 분포 : X와 Y의 결합분포에서 X 또는 Y의 어느 하나만의 확률분포를 말함
- 공분산 : 두 확률변수의 분포가 결합될 때 그 결합 확률 분포의 분산을 측정하는 것으로 Cov(X, Y)로 표현
- 공분산이 0인 것은 두 확률 변수 사이에 비례적 선형관계를 발견할 수 없는 경우
- 비례 관계 정도에 따라 공분산 크기 바뀜
<6장 이산확률분포>
1. 이항분포
- 베르누이 사행 (성공/실패) : p=P(성공) , q=P(실패)=1-p, p+q=1 : 독립시행
- 이항분포의 계산
- 이항분포표의 이용 : n, p 값을 이용해 확률값 찾음
- 형태 : p=0.5일때 대칭 모양, n이 클수록 대칭에 가까운 모형
- 기댓값과 분산
2. 다항분포
- 다항분포의 계산
3. 초기하분포
- 성공 확률은 언제나 일정하다 (독립시행)
성공 확률이 일정하지 않다 (종속시행) 에 적용하는 확률 모형이 초기하 분포
- 초기하분포 계산 (N명중에 X명을 뽑는 경우)
'데이터 어쩌구 > 통계 ・ 수학' 카테고리의 다른 글
[실습] (4-2) 다중 회귀 with R (0) | 2020.12.23 |
---|---|
[실습] (4-1) 단순 회귀 with R (0) | 2020.12.23 |
[이론] (3) 데이터 마이닝 (0) | 2020.12.23 |
[실습] (1) R 기본 개념과 기초 함수 (0) | 2020.12.22 |
[이론] 의사결정나무 (0) | 2020.11.24 |