1. 확률분포와 파라미터
1) 파라미터(parameter, 모수)
- 이론적인 확률분포는 수식으로 표현됨・분포의 형태를 정하는 숫자인 파라미터를 가짐
2) 정규분포(normal distribution, N(𝜇, 𝝈²) = 가우스 분포(Gaussian distribution))
- 연속형 확률변수를 대상으로 정의됨
- 정규분포에는 평균 𝜇 와 표준편차 𝝈 의 2가지 파라미터가 존재
- 위 그림은 𝜇 = 70, 𝝈 = 10 인 정규분포를 나타낸 것
- 확률밀도함수는 다음과 같이 나타남
- 확률분포가 평균 𝜇 와 표준편차 𝝈 의 2가지 파라미터로 정해짐
- 표준정규분포 : 평균 𝜇 = 0, 표준편차 𝝈 = 1 인 정규분포 N(0, 1)
- 평균 𝜇 : 분포의 위치를 결정
- 표준편차 𝝈 : 분포의 넓이를 결정
[TIP] 정규분포의 특징
- 평균 𝜇를 중심으로 한 종형; 좌우대칭 분포
- 평균 𝜇 근처에 값이 가장 多 ・ 평균 𝜇 에서 멀어질수록 적어짐
- 키・몸무게 등 정규분포로 근사할 수 있는 현상이 많음
[TIP2] 정규분포의 성질
- (𝜇-𝝈) ~ (𝜇+𝝈) 에 값이 있을 확률 : 약 68%
- (𝜇-2𝝈) ~ (𝜇+2𝝈) 에 값이 있을 확률 : 약 95%
- (𝜇-3𝝈) ~ (𝜇+3𝝈) 에 값이 있을 확률 : 약 99.7%
- 어떤 값이 분포의 평균에서 얼마나 떨어졌는지를 나타낼 때, '~는 평균에서 n𝝈 떨어져 있다' 라고 표현할 수 있음
- ex : '188.6cm 는 평균에서 3𝝈 떨어져 있다' → 약 0.3%(상위 0.15%)에 속하는 드문 값이라는 의미를 전달
- 색으로 칠한 넓이 = 그 범위에 값이 속할 확률
2. 표준화
1) 표준화(standardizing = normalizing)
- 정규분포의 표준화 : '평균= 𝜇, 표준편차=𝝈인 정규분포를 따르는 확률변수 X' ⇨ '평균=0, 표준편차=1인 표준정규분포를 따르는 확률변수 Z'로 바꾸는 것
- 표준화를 해주는 이유 : 정규분포를 따르지만 평균・표준편차가 각각 다른 현상들이 있을 때, 같은 평균・같은 표준편차로 바꿔 서로 공정하게 비교하기 위함
3. 다양한 확률분포
- 통계학에서, 정규분포 외에도 균등분포・이항분포・푸아송분포・음이항분포・지수분포・가우스분포 등이 있음
- 또한, 추론통계 계산에서 나타나는 검정통계량(통계량이 따르는 확률분포)이 존재함; t분포, F분포, x²분포 등
출처 : ⎡통계101 x 데이터 분석 (아베 마사토)⎦
'통계학 > 03. 통계분석의 기초' 카테고리의 다른 글
03-3 확률 (1) | 2024.06.11 |
---|---|
03-2 통계량 (0) | 2024.06.10 |
03-1 데이터 유형・분포 (0) | 2024.06.09 |