본문 바로가기

통계학/03. 통계분석의 기초

03-1 데이터 유형・분포

by gamdong2 2024. 6. 9.

1. 변수란?

1) 변수의 정의

변수 : 공통의 측정 방법으로 얻은 같은 성질의 값 ex : 키
각각 다른 값을 취할 수 있으므로 변수라 불림

2) 변수가 여러 개인 경우

1변수 데이터 : 데이터에 '키'만 포함되어 있는 경우
2변수 데이터 : 데이터에 '키', '몸무게'가 포함되어 있는 경우
3변수 데이터 : 데이터에 '키', '몸무게', '성별'이 포함되어있는 경우

→ 변수가 여러 개인 경우 변수 간의 관계를 밝히고자 데이터를 분석할 수 있음

BUT 이 때, 한 사람으로부터 각 변수의 데이터를 모두 얻어야 함

통계학에서, '변수의 개수' = '차원' ex : 1변수 - 1차원 직선상에 표현, 2변수 - 2차원 평면상에 각 값의 점을 찍음
4차원 이상 변수 데이터; 고차원 데이터, 분석 난이도 ↑

2. 다양한 데이터 유형

변수의 유형마다 분석 방법이 달라짐 ∴ 데이터를 수집・분석할 때 변수가 어떤 유형인지 고려하는 것이 중요!
변수는 '양적 변수', '질적 변수' 로 나뉨

1) 양적 변수 (수치형 변수)

숫자로 나타낼 수 있는 변수. 대소 관계O
양적 변수는 '이산형', '연속형' 으로 나뉨

① 이산형
- 얻을 수 있는 값이 점점이 있는 변수 (분산된 값, 셀 수 있는 숫자 데이터)
ex : 주사위 눈, 횟수, 사람수

② 연속형
- 간격 없이 이어지는 값으로 나타낼 수 있는 변수 (연속한 값)
ex : 키, 몸무게

2) 질적 변수 (범주형 변수)

숫자가 아닌 범주로 나타낼 수 있는 변수. 대소 관계X
숫자가 아니므로, 평균값 등 수치를 정의할 수 없음
ex : 설문조사 예/아니오, 동전 앞/뒤, 맑음/흐림/눈/비

3. 데이터 분포

Raw data는 값을 나열하기만 한 것, 전체 경향을 파악・대상을 설명・대상을 이해 불가

→ 데이터가 어떻게 분포되어 있는지를 그래프 등으로 시각화(ex : 히스토그램); 데이터 경향을 파악

* 히스토그램(도수분포도) : 어떤 값이 데이터에 몇 개 포함되어 있는가(도수, 빈도, 횟수)를 나타내는 그래프. 변수 유형에 따라 히스토그램의 정의가 다름

1) 이산형 양적 변수's 히스토그램

가로축 : 숫자
세로축 : 데이터에 나타난 개수(도수, 빈도, 횟수)

2) 연속형 양적 변수's 히스토그램

가로축 : 구간(범위)를 설정 범위의 너비 = 구간폭(bin width)
세로축 : 그 구간에 포함되는 개수

* 구간폭을 어떻게 설정하는지에 따라 인상이 달라짐; 데이터에 따른 적절한 구간폭을 결정하는 것이 중요 & 히스토그램은 대략적인 데이터 구성을 파악하는 것이 목적(결론을 내기 위한 것이 x)

3) 범주형 변수's 히스토그램

가로축 : 범주 순서에 의미가 없음(ex : 짜장면, 짬뽕, 우동,...)
세로축 : 각 범주에 속하는 개수

출처 : ⎡통계101 x 데이터 분석 (아베 마사토)⎦

'통계학 > 03. 통계분석의 기초' 카테고리의 다른 글

03-4 이론적인 확률분포 (0)	2024.06.11
03-3 확률 (2)	2024.06.11
03-2 통계량 (0)	2024.06.10

티스토리툴바