1. 모집단 - 데이터 사이의 오차
- 모집단평균 𝜇 : 정말로 알고 싶은 것
- 표본(크기 n) : 모집단의 일부 x₁, x₂, ..., xₙ ⇒ 이 표본(데이터)에서 모집단평균 𝜇 을 추정
- 모집단의 평균 𝜇 ・ 모집단의 표준편차 𝝈 : 고정된 값
- 모집단분포에서 얻은 표본 x₁, x₂, ..., xₙ : 확률적으로 변하는 확률변수
2. 표본오차
- 표본오차(sampling error) : '실제로 손 안에 있는 데이터'와 '정말로 알고 싶은 것' 사이의 오차 ex : x̅ - 𝜇
- 표본오차는 표본을 추출할 때의 인위적인 실수나 잘못으로 생기는 오차가x, 데이터 퍼짐이 있는 모집단에서 무작위 표본을 고르는 데 발생하는 피할 수 없는 오차임
1) 주사위의 표본오차
- 각 눈이 1/6의 확률로 나타남
- 가정) 모집단 : 이상적인 주사위를 굴렸을 때 나오는 눈 → 모집단평균 𝜇 : 1*1/6 + 2*1/6 + ... + 6*1/6 = 3.5
- 설정) 표본 : 주사위를 6번 던졌을 때 나오는 눈 (표본크기 n=6) → 표본평균 x̅ : ?
- 모집단평균(3.5) ≠ 표본평균(3.83, 2.67, 4.33) ; 1/6씩의 확률로 각 눈이 나타나는 주사위를 6번 던졌다고 해도, 매번 확률분포에서 독립적으로 실현값이 발생하므로 각 눈이 균등하게 1번씩 나타나진x
2) 동전던지기의 표본오차
- 앞면과 뒷면이 1/2의 확률로 나옴
- 가정) 모집단 : 동전을 던졌을 때 나오는 면
- 설정) 표본 : 동전을 2번 던졌을 때 나오는 면 (표본크기 n=2) → 앞/앞, 뒤/뒤, 앞/뒤,...
- 표본은 모집단의 성질과 정확히 일치하지 x, 확률오차를 수반함
3) 큰 수의 법칙
- 큰 수의 법칙(law of large number) : 표본크기 n이 커질수록 표본평균 x̅ 가 모집단평균 𝜇 에 한없이 가까워짐
- 즉, 표본오차 'x̅ - 𝜇' 가 0에 한없이 가까워짐(수렴함)
- 검은색 실선 : 표본평균 x̅
- 파란색 점선 : 모집단평균 𝜇
3. 표본오차의 확률분포
- at 큰 수의 법칙, n↑일 수록 x̅가 𝜇에 가까워짐, BUT n을 무한대로 하더라도 x̅와 𝜇가 일치하지는 x
- x̅ = (x₁ + ... + xₙ) / n : 각 요소 xᵢ 가 확률변수 → ∴ 표본평균 x̅ 도 확률변수
- x̅ - 𝜇 : 𝜇라는 정수를 뺀 것 뿐 → ∴ 표본오차 x̅ - 𝜇 도 확률변수
- 표본오차의 확률분포 : 어느 정도 크기의 오차가 어느 정도 확률로 나타나는지를 알 수 있음
1) 중심극한정리
- 중심극한정리(central limit theorem) : 모집단이 어떤 분포이든 간에(분산이 무한으로 발산하는 꼬리 부분이 두꺼운 분포는 제외), 표본크기 n이 커질수록 표본평균 x̅의 분포가 정규분포에 근사함
- '표본평균 x̅ 의 분포' : 표본크기 n 으로 표본을 추출하고, 표본평균 x̅ 을 계산하는 작업을 몇 번이고 반복 → 표본평균 x̅ 을 한데 모아 히스토그램을 그림
- '표본평균 x̅ 의 분포는 정규분포로 근사할 수 있음' : 정규분포의 2가지 파라미터 평균(= 모집단 평균 𝜇) & 표준편차(= 𝝈 / √n)
- 표본평균 x̅ 는 모집단평균 𝜇 를 중심으로 좌우에 표준편차 𝝈 / √n 만큼의 폭으로 퍼져 분포함
- 표본크기 n이 커질수록 𝝈 / √n 는 작아짐; 표본평균 x̅ 와 모집단평균 𝜇 사이의 오차가 작아짐
2) 추정량
- 표본 추출의 목적 : 모집단의 모수를 추정하기 위함
- 추정량(estimate) : 모집단의 성질(모수, parameter)을 추정하는 데 사용하는 표본 통계량들
- 추정량은 확률변수이므로, 확률분포를 생각할 수 있음
- 일치추정량 : 표본크기 n을 무한대로 했을 때, 모집단의 어떤 성질(모수)과 일치하는 어떤 추정량(표본 통계량)
- 비편향추정량 : 어떤 추정량(표본 통계량)의 평균값(기대값)이 모집단의 어떤 성질(모수)과 일치할 때의 추정량
- 1개의 원 : 표본으로부터 구한 추정량
- 가운데 : 추정량 하나하나는 모집단의 성질(여기서는 𝜇)에서 벗어나지만, 이를 모아 구한 평균값이 𝜇 와 일치하는 경우 이를 '비편향추정량'이라 부름
- 왼쪽/오른쪽 : 𝜇 를 과소・과대 평가한 것으로 좋은 추정량이 x
- at 중심극한정리, '표본평균 x̅ 의 분포'의 평균은 모수인 𝜇 와 일치하므로, 표본평균 x̅ 은 모집단평균 𝜇 를 편향되지 않게 추정하는 '비편향추정량'
- 비편향표준편차(s) s²는 비편향분산
- 분모를 n으로 설정시 과소평가됨
[TIP] n으로 나누면 과소평가되는 직감적인 이유
① 각 값 xᵢ 와 표뵨평균 x̅ 의 차이를 제곱 (xᵢ - x̅)² → 값이 얼마나 퍼졌는지를 측정
② BUT 원래 (xᵢ - 𝜇)² 로 계산해야 하지만, 𝜇 가 미지수이므로 x̅ 로 바꾼 것
③ x̅ 와 𝜇 는 일치하지x / xᵢ 는 𝜇 보다 x̅ 에 더 가까울 것
④ '(xᵢ - x̅)² 의 합' ⟨ '(xᵢ - 𝜇)² 의 합'
따라서, n으로 나누지 않고 n-1 로 나누어 과소평가를 보정함
3) 표본오차의 분포
- at 중심극한정리, (표본평균 x̅의 분포 평균) = (모집단 평균 𝜇)
- 표본크기 n이 커질수록, 표본오차 (x̅ - 𝜇)의 분포는 정규분포에 근사함
[TIP] 표본오차 (x̅ - 𝜇) 의 분포; 표본오차(x̅ - 𝜇)의 분포는 모집단의 표준편차𝝈와 표본크기n의 2개 값만 정해지면 알 수 있음
- 평균 : 0 (∵ 분포 전체를 𝜇 만큼 평행이동 한 것)
- 표준편차 : 𝝈 / √n → 표준오차(standard error)
- BUT, 𝝈는 모집단의 성질이므로 미지의 값임 ∴ 표본에서 추정한 비편향표준편차 s를 대입하여 s / √n 를 표준오차로 삼음
↪︎ 이 때의 표본오차는 정규분포가 아닌, t분포를 따름
- 표본오차의 확률분포를 확인하는 이유 : 얼마나 큰 오차가 어느 정도의 확률로 나타나는지 알 수 있음; 이 때 오차를 정량화하기 위해 신뢰구간(confidence interval)을 사용
출처 : ⎡통계101 x 데이터 분석 (아베 마사토)⎦
'통계학 > 04. 추론통계~신뢰구간' 카테고리의 다른 글
04-3 신뢰구간 (0) | 2024.07.04 |
---|---|
중간점검) 표준편차, 표본오차, 표준오차 용어 정리 (0) | 2024.07.04 |
04-1 추론통계를 배우기 전에... (2) | 2024.06.11 |