공부중 ...

통계학이란 뭘까?

Chelsey 2023. 3. 16. 14:46
728x90

통계학의 적용 과정

1. 문제 설정

2. 데이터 수집

3. 분석가능한 형태로 데이터 정리와 데이터 분석

4. 통계적 추론과정 -> 문제 해결

 

통계 조사란?

복잡한 사회 또는 집단(모집답)의 어떤 현상(주제)를 수량화(측정)함으로써 객관적이고, 구체적인 특징을 파악하기 위한 일련의 과정

    -  모집단의 특성을 수치로 표현

    -  연구자는 모집단을 잘 대표하는 표본을 추출한다

 

실험이란?

연구자가 실험환경을 통제하고 조작을 가함으로써, 특정 처리의 효과를 파악하는 과정이다

실험 예시)

    1. 실험목적 : 아스피린이 심장마비 예방에 효과가 있는가?

    2. 실험 방법 : 모집단을 실험집단, 대조집단(통제집단)으로 나누어 아스피린 복용, 가짜 약 복용으로 나누어 실험하고 몇 년 후 집단간의 결과 분석

실험의 기본 조건 : 공정한 실험 과정 (무작위로 통제 : 랜덤화, 이중눈가림 : 피험자와 연구자가 사람들의 집단 소속을 모르는 상태)

 

데이터의 수집

알고싶은 현상을 왜곡되지 않게 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용

 

데이터

  • 질적 자료 Qualitative data
    • 명목척도, 순서척도에 의해 측정됨
  • 양적 자료 Quantitative data
    • 구간척도, 비율척도로 측정됨
    • almost 연속형 자료 continuous data

케이스 : 한 조사단위에 대한 정보의 집합체 (row)

추론

데이터를 이용하여 우리의 관심 대상에 대해 추측하고 추축의 신뢰성을 계량화 (추측통계)

  • 모집단 population : 관심 대상이 되는 모든 개체의 모임
    • 유한 모집단: 개체 수가 유한개
    • 무한 모집단: 개체 수가 무한개
  • 표본 sample : 모집단의 일부
    • 모집단을 대표하는 sample을 뽑아야한다
    • 단순랜덤표집 simple random sampling : 유한모집단에서 n개의 개체로 이루어진 가능한 모든 부분집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법
  • 모수 parameter : 모집단의 특성을 나타내는 대푯값 (우리가 알고 싶어하는 값)
    • 값이 고정되어 있다(베이지안 통계학에서는 값이 움직인다고 함)
    • 대부분 알 수 없는 값이다

통계량 statistic : 표본의 특성을 나타내는 대푯값

우리가 추정하는 것에 대해 얼마나 확실성이 있는가?

  • 질적 변수
  • 양적 변수

변수의 분포

변수가 취할 수 있는 모든 값에 대해 count를 나열

도수분포표 : 데이터에서 각 값의 출현빈도, 비슷한 값끼리 묶은 구간별 데이터 개수를 정리한 표 

 

질적 데이터의 요약

막대그래프 : 각 범주에 속한 관찰값의 개수, 비율을 막대의 길이로 나타낸 그래프 

 

양적 데이터의 요약(시험문제)

  • 히스토그램
    도수분포표를 막대그래프로 나타냄
    outlier 특이점을 쉽게 찾을 수 있음
    전체 분포 한눈에 파악하기 쉬움
    계급의 폭에 따라 분포의 특성이 달라짐!
    • 치우친 분포 skewed distribution
      왼쪽으로 치우친 right-skewed 분포 : 오른쪽 꼬리가 더 길다
      오른쪽으로 치우친 left-skewed 분포 : 왼쪼 꼬리가 더 길다
  • 점도표
    수평선 위에 데이터 값 위치를 점으로 표현한 그래프
    데이터가 적을 때 좋음, 많아지면 관찰하기 힘듦

분산과 표준편차

편차 : 관찰값 - 평균

분산 : (편차)의 제곱의 평균

표준편차 : (분산)의 제곱근, n-1로 나눈 값을 이용하는게 모집단에 가깝다.

모분산이 아니라 표본에 관심이 있다면 n으로 나눠도 된다.

 

분산, 표준편차가 크다 = 데이터 평균을 중심으로 광범위하게 퍼져있음

분산, 표준편차는 특이점의 영향을 많이 받는다

분산의 단위 = 데이터 측정단위의 제곱

 

변이계수

변이계수가 단순하게 분산이나 표준편차를 사용하는 것보다 더 합리적일 때가 있다.

변이계수 = 표준편차 / 평균

같은 단위의 것이지만 성인과 아이처럼 차이가 크다면 변이계수를 사용할 수 있다.

중앙값

위치 평균값

관찰값이 홀수이면 중앙위치

관찰값이 짝수이면 중앙에 위치하는 관찰값 2개의 평균

사분위수

Q1 : 전체의 1/4

Q2 : 전체의 2/4

Q3 : 전체의 3/4

사분위수 범위 IQR

백분위수

p백분위수 : 전체 데이터의 p%가 이 값보다 작거나 같은 값

범위

최댓값 - 최솟값

특이점의 영향을 심하게 받는다

 

다섯 수치요약 five-number summary : 최솟값, Q1, 중앙값, Q3, 최댓값

상자그림 : 다섯 수치요약을 나타낸 그래프

 

 

 

 

 

 

 

728x90