1. 가설검정 방법 구분해서 사용하기
- 가설검정은 다양한 목적・가설을 대상으로 시행 [BUT] 해석 목적・데이터 성질에 따라 가설검정 방법이 달라짐
[TIP] 가설검정 해석의 흐름
① 확인하고 싶은 대상에 따라, 귀무가설 vs 대립가설을 설정
② 데이터를 통해, 가설검정에 필요한 검정통계량 계산
③ 귀무가설이 옳다는 가정하에, 통계량의 분포를 생각 → 데이터로 계산한 통계량이 분포의 어느 위치에 있는지를 구함 ⇒ p값 계산
- 귀무가설・검정통계량(or 그 분포)은 가설검정 방법에 따라 달라짐 / 필요한 검정통계량 또한 데이터 유형(양적 변수 or 질적 변수) ・ 데이터 성질에 따라 다름
⇒ ∴ 가설검정 방법을 선택할 때, 데이터 유형(양적변수 vs 질적변수) ・ 표본의 수 ・ 양적 변수 분포의 성질 을 먼저 확인해야 함
1) 데이터 유형
데이터 유형이 양적 변수 vs 질적 변수 에 따라 해석 방법이 달라짐. 먼저 데이터 유형부터 확인!
- 2개 변수 사이의 관계
[EX] 이표본 t검정; 첫 번째 그래프
- 양적 변수 데이터(혈압(실수치))를 2개 표본(실험군(약 투여) vs 대조군(위약 투여))으로 나누고 서로 비교함
→ 이 2개 표본을 다시 2개 범주로 생각해보면, 양적 변수 vs 질적 변수(범주형 변수)라는 2가지 변수 사이의 관계를 조사하는 것
[EX] 분할표 contingency table; 두 번째 그래프 *분할표 : 각 상태에 몇 개의 데이터가 있는지를 나타내는 표
- 2가지 질적 변수 데이터(백신 접종 여부 - 그 후 감염 여부) 간의 관계를 조사
[EX] 산점도 scatter plot; 세 번째 그래프 *산점도 : x-y 평면에 각 데이터를 점으로 찍음
- 2가지 양적 변수 데이터(몸무게 - 키) 간의 관계를 조사
2) 표본의 수
표본의 수(집단의 수)도 분석 방법 선택에서 중요한 요소
- 다양한 표본의 수
[EX] 1표본; 첫 번째 그래프
- 2개 변수 사이의 관계가 x, 1변수 데이터를 조사o ⇒ 1개 모집단분포에 대한 가설 검증
- 예) "성인 남성 평균 키 172.5cm" 라는 가설을 세우고 검증
[EX] 2표본 이상; 두 번째 그래프
- 표본끼리 비교할 수 o; 집단 간의 차이를 조사할 수o
[EX] 3개 이상의 표본; 세 번째 그래프
- 3개 이상의 표본을 서로 비교할 때는 '다중비교' 라는 보정 방법이 필요
3) 양적 변수의 성질
데이터에 양적 변수가 有, 이것이 어떤 분포를 취하는지가 검정 방법 선택시 중요
- 모수검정 parametric test : 모집단이 수학적으로 다룰 수 있는(파라미터로 설명할 수 있는) 특정 분포를 따른다는 가정을 둔 가설검정
- 모수검정의 대부분은 모집단의 분포가 정규분포
[EX] t검정 - 모집단이 정규분포라고 가정
- 정규성 normality : 데이터가 정규분포로부터 얻어졌다고 간주할 수 있는 성질
- 모집단분포가 특정 분포라고 가정할 수 없는 경우(ex : 좌우 비대칭 분포, 이상값이 있는 분포,...), 평균・표준편차 등의 값은 필요x; 모수검정 이용x ⇒ 비모수검정 이용
- 비모수검정 nonparametric test : 모수(파라미터; 평균, 표준편차,...)에 기반을 두지 않는 가설검정
- 등분산성 : 분산이 같은 성질 집단 간 평균값을 비교할 때, 집단끼리 분산이 동일하다고 가정하는 방법이 多
출처 : ⎡통계101 x 데이터 분석 (아베 마사토)⎦