통계학이란 뭘까?
통계학의 적용 과정
1. 문제 설정
2. 데이터 수집
3. 분석가능한 형태로 데이터 정리와 데이터 분석
4. 통계적 추론과정 -> 문제 해결
통계 조사란?
복잡한 사회 또는 집단(모집답)의 어떤 현상(주제)를 수량화(측정)함으로써 객관적이고, 구체적인 특징을 파악하기 위한 일련의 과정
- 모집단의 특성을 수치로 표현
- 연구자는 모집단을 잘 대표하는 표본을 추출한다
실험이란?
연구자가 실험환경을 통제하고 조작을 가함으로써, 특정 처리의 효과를 파악하는 과정이다
실험 예시)
1. 실험목적 : 아스피린이 심장마비 예방에 효과가 있는가?
2. 실험 방법 : 모집단을 실험집단, 대조집단(통제집단)으로 나누어 아스피린 복용, 가짜 약 복용으로 나누어 실험하고 몇 년 후 집단간의 결과 분석
실험의 기본 조건 : 공정한 실험 과정 (무작위로 통제 : 랜덤화, 이중눈가림 : 피험자와 연구자가 사람들의 집단 소속을 모르는 상태)
데이터의 수집
알고싶은 현상을 왜곡되지 않게 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용
데이터
- 질적 자료 Qualitative data
- 명목척도, 순서척도에 의해 측정됨
- 양적 자료 Quantitative data
- 구간척도, 비율척도로 측정됨
- almost 연속형 자료 continuous data
케이스 : 한 조사단위에 대한 정보의 집합체 (row)
추론
데이터를 이용하여 우리의 관심 대상에 대해 추측하고 추축의 신뢰성을 계량화 (추측통계)
- 모집단 population : 관심 대상이 되는 모든 개체의 모임
- 유한 모집단: 개체 수가 유한개
- 무한 모집단: 개체 수가 무한개
- 표본 sample : 모집단의 일부
- 모집단을 대표하는 sample을 뽑아야한다
- 단순랜덤표집 simple random sampling : 유한모집단에서 n개의 개체로 이루어진 가능한 모든 부분집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법
- 모수 parameter : 모집단의 특성을 나타내는 대푯값 (우리가 알고 싶어하는 값)
- 값이 고정되어 있다(베이지안 통계학에서는 값이 움직인다고 함)
- 대부분 알 수 없는 값이다
통계량 statistic : 표본의 특성을 나타내는 대푯값
우리가 추정하는 것에 대해 얼마나 확실성이 있는가?
- 질적 변수
- 양적 변수
변수의 분포
변수가 취할 수 있는 모든 값에 대해 count를 나열
도수분포표 : 데이터에서 각 값의 출현빈도, 비슷한 값끼리 묶은 구간별 데이터 개수를 정리한 표
질적 데이터의 요약
막대그래프 : 각 범주에 속한 관찰값의 개수, 비율을 막대의 길이로 나타낸 그래프
양적 데이터의 요약(시험문제)
- 히스토그램
도수분포표를 막대그래프로 나타냄
outlier 특이점을 쉽게 찾을 수 있음
전체 분포 한눈에 파악하기 쉬움
계급의 폭에 따라 분포의 특성이 달라짐!
- 치우친 분포 skewed distribution
왼쪽으로 치우친 right-skewed 분포 : 오른쪽 꼬리가 더 길다
오른쪽으로 치우친 left-skewed 분포 : 왼쪼 꼬리가 더 길다
- 치우친 분포 skewed distribution
- 점도표
수평선 위에 데이터 값 위치를 점으로 표현한 그래프
데이터가 적을 때 좋음, 많아지면 관찰하기 힘듦
분산과 표준편차
편차 : 관찰값 - 평균
분산 : (편차)의 제곱의 평균
표준편차 : (분산)의 제곱근, n-1로 나눈 값을 이용하는게 모집단에 가깝다.
모분산이 아니라 표본에 관심이 있다면 n으로 나눠도 된다.
분산, 표준편차가 크다 = 데이터 평균을 중심으로 광범위하게 퍼져있음
분산, 표준편차는 특이점의 영향을 많이 받는다
분산의 단위 = 데이터 측정단위의 제곱
변이계수
변이계수가 단순하게 분산이나 표준편차를 사용하는 것보다 더 합리적일 때가 있다.
변이계수 = 표준편차 / 평균
같은 단위의 것이지만 성인과 아이처럼 차이가 크다면 변이계수를 사용할 수 있다.
중앙값
위치 평균값
관찰값이 홀수이면 중앙위치
관찰값이 짝수이면 중앙에 위치하는 관찰값 2개의 평균
사분위수
Q1 : 전체의 1/4
Q2 : 전체의 2/4
Q3 : 전체의 3/4
사분위수 범위 IQR
백분위수
p백분위수 : 전체 데이터의 p%가 이 값보다 작거나 같은 값
범위
최댓값 - 최솟값
특이점의 영향을 심하게 받는다
다섯 수치요약 five-number summary : 최솟값, Q1, 중앙값, Q3, 최댓값
상자그림 : 다섯 수치요약을 나타낸 그래프