데이터 요약하여 시각화해보기

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

여정의 기록

데이터 요약하여 시각화해보기 본문

공부중 ...

데이터 요약하여 시각화해보기

Chelsey 2023. 3. 16. 18:02

728x90

변수 :

각 단위에 대해 관측되는 특성

- 질적 변수 qualitative variable : 유한개의 범주 중 하나의 값을 취하는 변수

- 명목형 변수 : 범주들의 의미에 있어 순서를 정할 수 없는 경우

- 순서형 변수 : 범주 간 의미있는 순서를 정할 수 있는 경우

- 양적 변수 quantitative variable : 양적인 수치로 측정되는 변수

- 연속형 변수 : 실수 구간안의 모든 값을 가질 수 있는 변수

- 이산형 변수 : 취할 수 있는 값을 셀 수 있는 양적 변수

변수의 데이터에는 단위에 따른 변동이 있다

도수분포표

- 질적변수 : 각 범주에 속하는 단위 count

- 양적변수 : 계급을 정한 뒤 계급당 count

계급 정하기 : 폭을 일정하게 정하기, (폭이 너무 좁으면 : 계급의 개수가 너무 많아지고 도수가 너무 작아짐, 폭이 너무 넓으면 : 전체적인 분포가 잘 드러나지 않음)

질적 데이터 요약하기 - 막대 그래프

각 범주에 해당되는 데이터 count or 비율을 막대 그래프로 나타낼 수 있다.

- 명목형 변수 : 큰 빈도 -> 작은 빈도, or 작은 빈도 -> 큰 빈도 순으로 나타내는게 좋음

- 순서형 변수 : 범주순으로 나타내는게 좋음

- 원 그래프

각 범주의 비율을 원의 면적으로 나타냄

막대 그래프에 비해 적은 정보 - 최근에는 잘 안씀

양적 데이터 요약하기 - 히스토그램

도수분포표를 그래프로 나타낸 것

계끕을 수평축(x)에 표시

각 계급의 도수에 비례하는 넓이의 직사각형이 나열됨

특이점 outlier 를 쉽게 찾을 수 있다 (멀리 떨어진 데이터 발견)

전체적인 분포를 바로 파악 가능

계급의 폭(계급을 아주 크게 한 경우)에 따라 같은 데이터여도 분포가 다르게 보일 수 있는 주의

자주 나오는 분포 유형

1. 종 모양 분포 : 연속형 변수에서 자주 나오는 분포

2. 쌍봉우리형 분포 : 2개의 봉우리

3. 치우친 분포 : 비대칭, 왼쪽으로 치우친 경우 - 오른쪽 꼬리가 길다 right-skewed , 오른쪽으로 치우친 - 왼쪽 꼬리가 길다 left-skewed

4. 균등분포 : 어떤 범위 내 값이 고르게 나타나는 분포

- 점도표

데이터를 수평선위에 표시하는 그래프

데이터가 작을 때 유용 (20 ~ 30개 이하)

관찰값 중 가장 자주 나오는 값 -> 최빈값 mode (여러개 일 수도 없을수도 있음)

점도표의 중심(양적 변수의 분포의 균형을 이루는 무게중심의 위치에 해당하는 값) -> 평균 (관찰값 총합/관찰값 개수)

- 평균

특이점의 영향을 받는다.

표본 데이터가 기울어졌거나 특이점이 있으면 평균이 데이터를 대표하지 못한다.

- 분산

데이터가 중심으로부터 얼마나 퍼져있는가?

편차를 계산할 수 있다. 편차 = 관찰값 - 평균

편차가 음수가 나오지 않도록 - 데이터와 평균값의 차이만 보기위해서 분산(편차를 제곱한 평균)을 이용한다.

분산 = 편차의 제곱의 평균(모분산이 아닌 표본분산을 이용해 모분산을 추론하기 때문에, 모분산을 잘 추정하기 위해서는 n보다 n-1으로 나눴을때 모분산을 잘 추정할 수 있다.)

표준편차 = 분산의 제곱근

1. 분산, 표준편차가 크다 -> 데이터가 광범위하게 퍼져있다

2. 분산, 표준편차가 작다 -> 데이터가 평균으로 모여있다

3. 분산, 표준편차는 - 특이점의 영향을 많이 받음

4. 분산의 단위 = 데이터 측정단위의 제곱

5. 표준편차의 단위 = 데이터 측정단위와 동일

변이계수 coefficient of variation

변수 2개 이상의 변동 비교시 분산, 표준편차를 비교하는게 좋은 비교일까?

변동 비교시 측정 단위, 데이터 중심위치 차이 고려해야함 -> 변이계수(= 표준편차 / 평균)

728x90

저작자표시 비영리 변경금지

'공부중 ...' 카테고리의 다른 글

내가 다시 보려고 기록하는 엑셀 함수 (0)	2023.04.09
조건부 확률 (0)	2023.03.22
확률의 시작 ... 확률의 종류와 계산하는 방법 (0)	2023.03.21
데이터의 분포를 알아보자 (Boxplot, 분포 ...) (0)	2023.03.20
통계학이란 뭘까? (0)	2023.03.16

'공부중 ...' Related Articles

여정의 기록

데이터 요약하여 시각화해보기 본문

데이터 요약하여 시각화해보기

변수 :

질적 데이터 요약하기 - 막대 그래프

- 원 그래프

양적 데이터 요약하기 - 히스토그램

- 점도표

- 평균

- 분산

'공부중 ...' 카테고리의 다른 글

티스토리툴바