본문 바로가기

통계학17

중간점검) 표준편차, 표본오차, 표준오차 용어 정리 1. 배경 이론1) 내 필기.. 2) 용어 정리확률변수 X : 어떤 사건・현상을 실수로 전환하는 함수확률분포 : 각각의 확률변수 값이 나타날 확률의 분포를 나타낸 것- 확률분포 ⊃ 이산형 확률분포, 연속형 확률분포 - 이산형 확률분포 ⊃ 이항분포, 포아손분포, 기하분포, 초기하분포 등 - 연속형 확률분포 ⊃ 정규분포, f 분포, t 분포, chi-square 분포 등정규분포 : 평균을 중심으로 좌우대칭인 연속형 확률변수's 확률분포 X~N(𝜇, 𝝈²) : 확률변수X(평균𝜇, 분산𝝈²)의 정규분포중심극한정리 : 표본크기 n이 일정 이상 크다면 모집단의 분포가 무엇이든 간에 표본평균x̅의 분포는 정규분포(평균𝜇, 표준편차𝝈/√n)를 따름표준정규분포 : 확률변수Z = (X-𝜇)/𝝈 Z~N(0, 1) : 확률변.. 2024. 7. 4.
04-2 표본오차 1. 모집단 - 데이터 사이의 오차모집단평균 𝜇 : 정말로 알고 싶은 것표본(크기 n) : 모집단의 일부 x₁, x₂, ..., xₙ ⇒ 이 표본(데이터)에서 모집단평균 𝜇 을 추정모집단의 평균 𝜇 ・ 모집단의 표준편차 𝝈 : 고정된 값모집단분포에서 얻은 표본 x₁, x₂, ..., xₙ : 확률적으로 변하는 확률변수   2. 표본오차표본오차(sampling error) : '실제로 손 안에 있는 데이터'와 '정말로 알고 싶은 것' 사이의 오차 ex : x̅ - 𝜇표본오차는 표본을 추출할 때의 인위적인 실수나 잘못으로 생기는 오차가x, 데이터 퍼짐이 있는 모집단에서 무작위 표본을 고르는 데 발생하는 피할 수 없는 오차임1) 주사위의 표본오차각 눈이 1/6의 확률로 나타남가정) 모집단 : 이상적인.. 2024. 6. 11.
04-1 추론통계를 배우기 전에... 1. 전수조사와 표본조사전수조사 : 모집단의 모든 요소를 조사함; 기술통계 방법을 통해 모집단의 성질을 분석표본조사 : 모집단의 일부인 표본으로 모집단의 성질을 추정; 추론통계 방법을 통해 모집단을 추정 2. 모집단분포모집단분포 : 모집단을 나타내는 분포; 모집단에 포함된 전체 값으로 구성된 분포표본 추출: 모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것모수(parameter) : 모집단분포를 특징 짓는 양 ex : 모평균・모분산(모집단분포가 양적 변수의 분포일 때, 평균・분산을 정의)at 통계학, 모수를 아는 것이 목표 BUT 현실적으로 어려움; 표본으로 모수를 추정 3. 확률분포와 실현값확률분포 : 가로축 - 확률변수 값 / 세로축 - 그 확률(or 확률밀도)실현값(≒ 데이터) : 확.. 2024. 6. 11.
03-4 이론적인 확률분포 1. 확률분포와 파라미터 1) 파라미터(parameter, 모수)이론적인 확률분포는 수식으로 표현됨・분포의 형태를 정하는 숫자인 파라미터를 가짐 2) 정규분포(normal distribution, N(𝜇, 𝝈²) = 가우스 분포(Gaussian distribution))연속형 확률변수를 대상으로 정의됨- 정규분포에는 평균 𝜇 와  표준편차 𝝈 의 2가지 파라미터가 존재- 위 그림은 𝜇 = 70, 𝝈 = 10 인 정규분포를 나타낸 것 확률밀도함수는 다음과 같이 나타남- 확률분포가 평균 𝜇 와  표준편차 𝝈 의 2가지 파라미터로 정해짐 표준정규분포 : 평균 𝜇 = 0, 표준편차 𝝈 = 1 인 정규분포 N(0, 1)- 평균 𝜇 : 분포의 위치를 결정- 표준편차 𝝈 : 분포의 넓이를 결정[.. 2024. 6. 11.
03-3 확률 1. 확률이란?1) 확률확률 : 발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현한 것사건 A의 확률 P(A) ex : P(X=붉은 구슬) = 4/5, P(X=흰 구슬) = 1/50 ≤ P(실수) ≤ 1 ; 큰 값일 수록 발생하기 쉬움모든 사건의 확률을 전부 더하면 1이 됨 2) 확률변수확률변수 : 확률이 달라지는 변수 ex : X = {붉은 구슬, 흰 구슬}실현값 : 확률변수가 실제로 취하는 값 ex : X = 붉은 구슬, 흰 구슬 3) 확률분포확률분포 : '가로축 - 확률변수', '세로축 - 그 확률변수의 발생 가능성'을 표시한 분포(i) 확률변수 = 이산형 양적 변수(ii) 확률변수 = 연속형 양적 변수- 값에 일정한 범위를 두고 확률을 구함; 이 때 확률을 계산하는 함수 '확률밀도함수'- 확.. 2024. 6. 11.
03-2 통계량 1. 데이터 특징 짓기1) 히스토그램 : 대략의 데이터 분포를 시각적으로 살펴봄 BUT 데이터를 객관적·정량적으로 평가 불가→ 데이터를 수치로 변환하여 특징 짓는 방법이 필요  2) 통계량 : 수집한 데이터로 이런저런 계산을 수행하여 얻은 값→ 데이터 분석 : 다양한 통계량 계산을 통해 대상을 이해하는 과정  3) 기술통계량(= 요약통계량) : 데이터 그 자체의 성질을 기술·요약하는 통계량→ 데이터에서 몇 가지 통계량을 계산·요약하면 데이터가 어떻게 분포하는지 정량적으로 특징지을 수 있음(like 히스토그램)기술통계량은 주로 수치형 변수를 대상으로 계산(범주형 변수인 경우 '특정 범주의 값이 몇 개인지' 같은 개수(or 비율)로만 데이터를 기술·요약할 수 있음)ex : 평균값; raw data의 수많은 .. 2024. 6. 10.