여정의 기록
데이터 요약하여 시각화해보기 본문
변수 :
각 단위에 대해 관측되는 특성
- 질적 변수 qualitative variable : 유한개의 범주 중 하나의 값을 취하는 변수
- 명목형 변수 : 범주들의 의미에 있어 순서를 정할 수 없는 경우
- 순서형 변수 : 범주 간 의미있는 순서를 정할 수 있는 경우
- 양적 변수 quantitative variable : 양적인 수치로 측정되는 변수
- 연속형 변수 : 실수 구간안의 모든 값을 가질 수 있는 변수
- 이산형 변수 : 취할 수 있는 값을 셀 수 있는 양적 변수
변수의 데이터에는 단위에 따른 변동이 있다
도수분포표
- 질적변수 : 각 범주에 속하는 단위 count
- 양적변수 : 계급을 정한 뒤 계급당 count
계급 정하기 : 폭을 일정하게 정하기, (폭이 너무 좁으면 : 계급의 개수가 너무 많아지고 도수가 너무 작아짐, 폭이 너무 넓으면 : 전체적인 분포가 잘 드러나지 않음)
질적 데이터 요약하기 - 막대 그래프
각 범주에 해당되는 데이터 count or 비율을 막대 그래프로 나타낼 수 있다.
- 명목형 변수 : 큰 빈도 -> 작은 빈도, or 작은 빈도 -> 큰 빈도 순으로 나타내는게 좋음
- 순서형 변수 : 범주순으로 나타내는게 좋음
- 원 그래프
각 범주의 비율을 원의 면적으로 나타냄
막대 그래프에 비해 적은 정보 - 최근에는 잘 안씀
양적 데이터 요약하기 - 히스토그램
도수분포표를 그래프로 나타낸 것
계끕을 수평축(x)에 표시
각 계급의 도수에 비례하는 넓이의 직사각형이 나열됨
특이점 outlier 를 쉽게 찾을 수 있다 (멀리 떨어진 데이터 발견)
전체적인 분포를 바로 파악 가능
계급의 폭(계급을 아주 크게 한 경우)에 따라 같은 데이터여도 분포가 다르게 보일 수 있는 주의
자주 나오는 분포 유형
1. 종 모양 분포 : 연속형 변수에서 자주 나오는 분포
2. 쌍봉우리형 분포 : 2개의 봉우리
3. 치우친 분포 : 비대칭, 왼쪽으로 치우친 경우 - 오른쪽 꼬리가 길다 right-skewed , 오른쪽으로 치우친 - 왼쪽 꼬리가 길다 left-skewed
4. 균등분포 : 어떤 범위 내 값이 고르게 나타나는 분포
- 점도표
데이터를 수평선위에 표시하는 그래프
데이터가 작을 때 유용 (20 ~ 30개 이하)
관찰값 중 가장 자주 나오는 값 -> 최빈값 mode (여러개 일 수도 없을수도 있음)
점도표의 중심(양적 변수의 분포의 균형을 이루는 무게중심의 위치에 해당하는 값) -> 평균 (관찰값 총합/관찰값 개수)
- 평균
특이점의 영향을 받는다.
표본 데이터가 기울어졌거나 특이점이 있으면 평균이 데이터를 대표하지 못한다.
- 분산
데이터가 중심으로부터 얼마나 퍼져있는가?
편차를 계산할 수 있다. 편차 = 관찰값 - 평균
편차가 음수가 나오지 않도록 - 데이터와 평균값의 차이만 보기위해서 분산(편차를 제곱한 평균)을 이용한다.
분산 = 편차의 제곱의 평균(모분산이 아닌 표본분산을 이용해 모분산을 추론하기 때문에, 모분산을 잘 추정하기 위해서는 n보다 n-1으로 나눴을때 모분산을 잘 추정할 수 있다.)
표준편차 = 분산의 제곱근
1. 분산, 표준편차가 크다 -> 데이터가 광범위하게 퍼져있다
2. 분산, 표준편차가 작다 -> 데이터가 평균으로 모여있다
3. 분산, 표준편차는 - 특이점의 영향을 많이 받음
4. 분산의 단위 = 데이터 측정단위의 제곱
5. 표준편차의 단위 = 데이터 측정단위와 동일
변이계수 coefficient of variation
변수 2개 이상의 변동 비교시 분산, 표준편차를 비교하는게 좋은 비교일까?
변동 비교시 측정 단위, 데이터 중심위치 차이 고려해야함 -> 변이계수(= 표준편차 / 평균)
'공부중 ...' 카테고리의 다른 글
내가 다시 보려고 기록하는 엑셀 함수 (0) | 2023.04.09 |
---|---|
조건부 확률 (0) | 2023.03.22 |
확률의 시작 ... 확률의 종류와 계산하는 방법 (0) | 2023.03.21 |
데이터의 분포를 알아보자 (Boxplot, 분포 ...) (0) | 2023.03.20 |
통계학이란 뭘까? (0) | 2023.03.16 |