통계학/03. 통계분석의 기초4 03-4 이론적인 확률분포 1. 확률분포와 파라미터 1) 파라미터(parameter, 모수)이론적인 확률분포는 수식으로 표현됨・분포의 형태를 정하는 숫자인 파라미터를 가짐 2) 정규분포(normal distribution, N(𝜇, 𝝈²) = 가우스 분포(Gaussian distribution))연속형 확률변수를 대상으로 정의됨- 정규분포에는 평균 𝜇 와 표준편차 𝝈 의 2가지 파라미터가 존재- 위 그림은 𝜇 = 70, 𝝈 = 10 인 정규분포를 나타낸 것 확률밀도함수는 다음과 같이 나타남- 확률분포가 평균 𝜇 와 표준편차 𝝈 의 2가지 파라미터로 정해짐 표준정규분포 : 평균 𝜇 = 0, 표준편차 𝝈 = 1 인 정규분포 N(0, 1)- 평균 𝜇 : 분포의 위치를 결정- 표준편차 𝝈 : 분포의 넓이를 결정[.. 2024. 6. 11. 03-3 확률 1. 확률이란?1) 확률확률 : 발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현한 것사건 A의 확률 P(A) ex : P(X=붉은 구슬) = 4/5, P(X=흰 구슬) = 1/50 ≤ P(실수) ≤ 1 ; 큰 값일 수록 발생하기 쉬움모든 사건의 확률을 전부 더하면 1이 됨 2) 확률변수확률변수 : 확률이 달라지는 변수 ex : X = {붉은 구슬, 흰 구슬}실현값 : 확률변수가 실제로 취하는 값 ex : X = 붉은 구슬, 흰 구슬 3) 확률분포확률분포 : '가로축 - 확률변수', '세로축 - 그 확률변수의 발생 가능성'을 표시한 분포(i) 확률변수 = 이산형 양적 변수(ii) 확률변수 = 연속형 양적 변수- 값에 일정한 범위를 두고 확률을 구함; 이 때 확률을 계산하는 함수 '확률밀도함수'- 확.. 2024. 6. 11. 03-2 통계량 1. 데이터 특징 짓기1) 히스토그램 : 대략의 데이터 분포를 시각적으로 살펴봄 BUT 데이터를 객관적·정량적으로 평가 불가→ 데이터를 수치로 변환하여 특징 짓는 방법이 필요 2) 통계량 : 수집한 데이터로 이런저런 계산을 수행하여 얻은 값→ 데이터 분석 : 다양한 통계량 계산을 통해 대상을 이해하는 과정 3) 기술통계량(= 요약통계량) : 데이터 그 자체의 성질을 기술·요약하는 통계량→ 데이터에서 몇 가지 통계량을 계산·요약하면 데이터가 어떻게 분포하는지 정량적으로 특징지을 수 있음(like 히스토그램)기술통계량은 주로 수치형 변수를 대상으로 계산(범주형 변수인 경우 '특정 범주의 값이 몇 개인지' 같은 개수(or 비율)로만 데이터를 기술·요약할 수 있음)ex : 평균값; raw data의 수많은 .. 2024. 6. 10. 03-1 데이터 유형・분포 1. 변수란?1) 변수의 정의변수 : 공통의 측정 방법으로 얻은 같은 성질의 값 ex : 키각각 다른 값을 취할 수 있으므로 변수라 불림 2) 변수가 여러 개인 경우1변수 데이터 : 데이터에 '키'만 포함되어 있는 경우2변수 데이터 : 데이터에 '키', '몸무게'가 포함되어 있는 경우3변수 데이터 : 데이터에 '키', '몸무게', '성별'이 포함되어있는 경우→ 변수가 여러 개인 경우 변수 간의 관계를 밝히고자 데이터를 분석할 수 있음 BUT 이 때, 한 사람으로부터 각 변수의 데이터를 모두 얻어야 함통계학에서, '변수의 개수' = '차원' ex : 1변수 - 1차원 직선상에 표현, 2변수 - 2차원 평면상에 각 값의 점을 찍음4차원 이상 변수 데이터; 고차원 데이터, 분석 난이도 ↑ 2. 다양한 데.. 2024. 6. 9. 이전 1 다음