공부중 ...

데이터의 분포를 알아보자 (Boxplot, 분포 ...)

Chelsey 2023. 3. 20. 13:30
728x90

median 중앙값

- 전체 데이터의 중앙 위치에 존재하는 값 

- 특이점의 영향을 별로 안받는다

- 분포가 한쪽으로 쏠려 있거나, 특이점이 있는 데이터 요약 시 유용

- 데이터를 2등분 한 것

 

quartiles 사분위수

- 데이터를 4등분 한 것

- 1사분위수 Q1

- 2사분위수 Q2

- 3사분위수 Q3

- 사분위수 범위 IQR = 3사분위수 - 1사분위수

 

percentile 백분위수

- 전체 데이터 = p + (1-p)

- p 값으로 전체 데이터를 나누어서 p 이전에는 p 보다 낮은 값들의 비율이고 이후는 높은 값들의 비율로 보면 된다.

 

다섯 수치 요약 five-number summary

- 최솟값, 1사분위수, 중앙값, 3사분위수, 최댓값 

- min, Q1, mdedian, Q3, max

- 데이터의 중심 위치, 퍼진 정도 파악 가능

- 시각적으로 표현 -> Boxplot 

 

Boxplot

- Q1 ~ Q3 범위로 상자를 그리고

- 중앙값을 표시

- 최댓값과 최솟값 추가로 표시

 

좌우 대칭 종모양 분포

- mean, median, 최빈값 위치 비슷

 

기울어진 분포

- mean이 median에 비해 꼬리에 더 가깝게 위치

 

쌍봉우리형 분포

- 2개 최빈값 위치

 

데이터의 산포

- 분산, 표준편차, 범위 - 특이점의 영향을 받는다

- 사분위수 범위 - 특이점의 영향을 받지 않는다

 

분산이 작은 분포 - 그래프의 퍼진 정도가 좁다

분산이 큰 분포 - 그래프가 퍼져있다

 


R 함수

hist(x, breaks, main, xlab, ylab, xlim, ylim, ...)

x : data vector

breaks : rㅖ급에 대한 정보 (계급 갯수, 계급 나누는 값들 벡터로)

main : 그래프 제목

xlab , ylab : x, y 축 제목

xlim, ylim : x, y 축 범위 ( xlim = c(min, max) )

 

hist(rv, main="", xlab="CRP", breaks=20)
hist(rv, main="", xlab="CRP", breaks=seq(0,240,20))

 

rnorm(100, 5, 2) : 100개의 난수 - 평균이 5이고 표준편차가 2인 난수를 만든다.

 

boxplot(x, ...)

x : data vector

 

요약통계량

평균 : mean(x)

분산 : var(x)

표준편차 : sd(x)

중앙값 : median(x)

다섯수치 요약: fivenum(x)

사분위수 범죄 : IQR(x)

범위 : range(x) -> 최소값과 최댓값이 나옴

 

 

728x90