본문 바로가기
통계학/04. 추론통계~신뢰구간

04-1 추론통계를 배우기 전에...

by gamdong2 2024. 6. 11.

1. 전수조사와 표본조사

  • 전수조사 : 모집단의 모든 요소를 조사함; 기술통계 방법을 통해 모집단의 성질을 분석
  • 표본조사 : 모집단의 일부인 표본으로 모집단의 성질을 추정; 추론통계 방법을 통해 모집단을 추정

 

2. 모집단분포

  • 모집단분포 : 모집단을 나타내는 분포; 모집단에 포함된 전체 값으로 구성된 분포
  • 표본 추출: 모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것
  • 모수(parameter) : 모집단분포를 특징 짓는 양 ex : 모평균・모분산(모집단분포가 양적 변수의 분포일 때, 평균・분산을 정의)
  • at 통계학, 모수를 아는 것이 목표 BUT 현실적으로 어려움; 표본으로 모수를 추정

 

3. 확률분포와 실현값

  • 확률분포 : 가로축 - 확률변수 값 / 세로축 - 그 확률(or 확률밀도)
  • 실현값(≒ 데이터) : 확률분포에서 무작위로 발생하도록 한 값
  • 확률분포 형태 결정 → 그 확률분포를 따르는 실현값이 발생하도록 함; 이 때 발생된 실현값이 어떤 확률로 움직일지 이해할 수 o
  • 모집단 = 확률분포, 표본 = 확률분포를 따르는 실현값
  • '확률분포 - 실현값' 관계 ≒ '모집단 - 표본' 관계
  • "얻은 표본으로 모집단을 추정" ⇒ "얻은 실현값으로 이 값을 발생시킨 확률분포를 추정"
  • ex : 모집단평균 '성인 남성 키'를 알고 싶을 때; 표본 데이터(실현값)에서 성인 남성키 확률분포의 평균값을 추정하는 것으로 모집단을 추정함

 

4. 모집단분포 모형화

  • at 현실 세계, 모집단분포는 약간 들쑥날쑥한 모양 → 수학적으로 이상적인 확률분포(모형)로 근사; 모집단 추정이 용이하도록 함
  • 이 때 모집단분포를 수학적인 확률분포로 근사하는 것을 '모형화(modeling)'라 함

 
 

5. 무작위추출

  • 무작위추출(random sampling) : 데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식
  • 단순무작위추출법 : 표본에 있을 수 있는 모든 요소를 목록으로 만들고 난수(random number)를 이용하여 표본을 정함; 가장 이상적인 무작위추출법, BUT 노력・시간・비용↑
  • 층화추출법 : 모집단을 몇 개의 층(집단)으로  미리 나눈 뒤, 각 층에서 필요한 수 의 조사대상을 무작위로 추출함
  • 그 밖에도 계통추출법, 군집추출법 등이 있음

 
 

6. 추론통계 직감적으로 이해하기

[EX] 맛을 보는 것(추론통계) : 국자로 뜬 된장국(표본)의 맛을 조사하여 냄비 안에 든 된장국(모집단)의 맛을 추정하는 것

  • 시사점1 : 정말로 알고자 하는 것은 국자로 뜬 된장국(표본 데이터)이 아니라 냄비 안에 든 된장국(모집단)
  • 시사점2 : 냄비 안의 된장국을 다 먹고 맛을 조사하기는 어려움; 모집단의 모든 요소를 다 조사하는 전수조사는 어려움
  • 시사점3 : 국자로 뜬 약간의 된장국으로 냄비안의 된장국 맛을 거의 확인할 수 있음; 작은 크기의 표본으로도 모집단을 추론할 수 있음
  • 시사점4 : 국자로 된장국을 뜰 때는 먼저 잘 섞어야 함; 표본을 추출할 때는 무작위로 추출해야 함

 
 
 
 
 
출처 : ⎡통계101 x 데이터 분석 (아베 마사토)