1. 변수란?
1) 변수의 정의
- 변수 : 공통의 측정 방법으로 얻은 같은 성질의 값 ex : 키
- 각각 다른 값을 취할 수 있으므로 변수라 불림
2) 변수가 여러 개인 경우
- 1변수 데이터 : 데이터에 '키'만 포함되어 있는 경우
- 2변수 데이터 : 데이터에 '키', '몸무게'가 포함되어 있는 경우
- 3변수 데이터 : 데이터에 '키', '몸무게', '성별'이 포함되어있는 경우
→ 변수가 여러 개인 경우 변수 간의 관계를 밝히고자 데이터를 분석할 수 있음
BUT 이 때, 한 사람으로부터 각 변수의 데이터를 모두 얻어야 함
- 통계학에서, '변수의 개수' = '차원' ex : 1변수 - 1차원 직선상에 표현, 2변수 - 2차원 평면상에 각 값의 점을 찍음
- 4차원 이상 변수 데이터; 고차원 데이터, 분석 난이도 ↑
2. 다양한 데이터 유형
- 변수의 유형마다 분석 방법이 달라짐 ∴ 데이터를 수집・분석할 때 변수가 어떤 유형인지 고려하는 것이 중요!
- 변수는 '양적 변수', '질적 변수' 로 나뉨
1) 양적 변수 (수치형 변수)
- 숫자로 나타낼 수 있는 변수. 대소 관계O
- 양적 변수는 '이산형', '연속형' 으로 나뉨
① 이산형
- 얻을 수 있는 값이 점점이 있는 변수 (분산된 값, 셀 수 있는 숫자 데이터)
ex : 주사위 눈, 횟수, 사람수
② 연속형
- 간격 없이 이어지는 값으로 나타낼 수 있는 변수 (연속한 값)
ex : 키, 몸무게
2) 질적 변수 (범주형 변수)
- 숫자가 아닌 범주로 나타낼 수 있는 변수. 대소 관계X
- 숫자가 아니므로, 평균값 등 수치를 정의할 수 없음
- ex : 설문조사 예/아니오, 동전 앞/뒤, 맑음/흐림/눈/비
3. 데이터 분포
Raw data는 값을 나열하기만 한 것, 전체 경향을 파악・대상을 설명・대상을 이해 불가
→ 데이터가 어떻게 분포되어 있는지를 그래프 등으로 시각화(ex : 히스토그램); 데이터 경향을 파악
* 히스토그램(도수분포도) : 어떤 값이 데이터에 몇 개 포함되어 있는가(도수, 빈도, 횟수)를 나타내는 그래프. 변수 유형에 따라 히스토그램의 정의가 다름
1) 이산형 양적 변수's 히스토그램
- 가로축 : 숫자
- 세로축 : 데이터에 나타난 개수(도수, 빈도, 횟수)
2) 연속형 양적 변수's 히스토그램
- 가로축 : 구간(범위)를 설정 범위의 너비 = 구간폭(bin width)
- 세로축 : 그 구간에 포함되는 개수
* 구간폭을 어떻게 설정하는지에 따라 인상이 달라짐; 데이터에 따른 적절한 구간폭을 결정하는 것이 중요 & 히스토그램은 대략적인 데이터 구성을 파악하는 것이 목적(결론을 내기 위한 것이 x)
3) 범주형 변수's 히스토그램
- 가로축 : 범주 순서에 의미가 없음(ex : 짜장면, 짬뽕, 우동,...)
- 세로축 : 각 범주에 속하는 개수
출처 : ⎡통계101 x 데이터 분석 (아베 마사토)⎦
'통계학 > 03. 통계분석의 기초' 카테고리의 다른 글
03-4 이론적인 확률분포 (0) | 2024.06.11 |
---|---|
03-3 확률 (1) | 2024.06.11 |
03-2 통계량 (0) | 2024.06.10 |