여정의 기록

데이터 요약하여 시각화해보기 본문

공부중 ...

데이터 요약하여 시각화해보기

Chelsey 2023. 3. 16. 18:02
728x90

변수 : 

각 단위에 대해 관측되는 특성

- 질적 변수 qualitative variable : 유한개의 범주 중 하나의 값을 취하는 변수

    - 명목형 변수 : 범주들의 의미에 있어 순서를 정할 수 없는 경우

    - 순서형 변수 : 범주 간 의미있는 순서를 정할 수 있는 경우

- 양적 변수 quantitative variable : 양적인 수치로 측정되는 변수

    - 연속형 변수 : 실수 구간안의 모든 값을 가질 수 있는 변수

    - 이산형 변수 : 취할 수 있는 값을 셀 수 있는 양적 변수 

 

변수의 데이터에는 단위에 따른 변동이 있다 

 

도수분포표

- 질적변수 : 각 범주에 속하는 단위 count

- 양적변수 : 계급을 정한 뒤 계급당 count

    계급 정하기 : 폭을 일정하게 정하기, (폭이 너무 좁으면 : 계급의 개수가 너무 많아지고 도수가 너무 작아짐, 폭이 너무 넓으면 : 전체적인 분포가 잘 드러나지 않음)

 

질적 데이터 요약하기 - 막대 그래프

각 범주에 해당되는 데이터 count or 비율을 막대 그래프로 나타낼 수 있다.

- 명목형 변수 : 큰 빈도 -> 작은 빈도, or 작은 빈도 -> 큰 빈도 순으로 나타내는게 좋음

- 순서형 변수 : 범주순으로 나타내는게 좋음

 

- 원 그래프

각 범주의 비율을 원의 면적으로 나타냄

막대 그래프에 비해 적은 정보 - 최근에는 잘 안씀

 

양적 데이터 요약하기 - 히스토그램

도수분포표를 그래프로 나타낸 것

계끕을 수평축(x)에 표시

각 계급의 도수에 비례하는 넓이의 직사각형이 나열됨 

특이점 outlier 를 쉽게 찾을 수 있다 (멀리 떨어진 데이터 발견)

전체적인 분포를 바로 파악 가능

계급의 폭(계급을 아주 크게 한 경우)에 따라 같은 데이터여도 분포가 다르게 보일 수 있는 주의

자주 나오는 분포 유형

    1. 종 모양 분포 : 연속형 변수에서 자주 나오는 분포

    2. 쌍봉우리형 분포 : 2개의 봉우리

    3. 치우친 분포 : 비대칭, 왼쪽으로 치우친 경우 - 오른쪽 꼬리가 길다 right-skewed , 오른쪽으로 치우친 - 왼쪽 꼬리가 길다 left-skewed

    4. 균등분포 : 어떤 범위 내 값이 고르게 나타나는 분포

 

- 점도표

데이터를 수평선위에 표시하는 그래프

데이터가 작을 때 유용 (20 ~ 30개 이하)

관찰값 중 가장 자주 나오는 값 -> 최빈값 mode (여러개 일 수도 없을수도 있음)

점도표의 중심(양적 변수의 분포의 균형을 이루는 무게중심의 위치에 해당하는 값) -> 평균 (관찰값 총합/관찰값 개수)

- 평균

특이점의 영향을 받는다.

표본 데이터가 기울어졌거나 특이점이 있으면 평균이 데이터를 대표하지 못한다.

- 분산

데이터가 중심으로부터 얼마나 퍼져있는가? 

편차를 계산할 수 있다. 편차 = 관찰값 - 평균

편차가 음수가 나오지 않도록 - 데이터와 평균값의 차이만 보기위해서 분산(편차를 제곱한 평균)을 이용한다.

분산 = 편차의 제곱의 평균(모분산이 아닌 표본분산을 이용해 모분산을 추론하기 때문에, 모분산을 잘 추정하기 위해서는 n보다 n-1으로 나눴을때 모분산을 잘 추정할 수 있다.)

표준편차 = 분산의 제곱근 

 

1. 분산, 표준편차가 크다 -> 데이터가 광범위하게 퍼져있다

2. 분산, 표준편차가 작다 -> 데이터가 평균으로 모여있다

3. 분산, 표준편차는 - 특이점의 영향을 많이 받음

4. 분산의 단위 = 데이터 측정단위의 제곱

5. 표준편차의 단위 = 데이터 측정단위와 동일

 

변이계수 coefficient of variation

변수 2개 이상의 변동 비교시 분산, 표준편차를 비교하는게 좋은 비교일까?

변동 비교시 측정 단위, 데이터 중심위치 차이 고려해야함 -> 변이계수(= 표준편차 / 평균)

 

 

 

 

 

728x90