공부중 .../딥러닝의통계적이해

[딥러닝의 통계적이해] 딥러닝과 통계학

Chelsey 2022. 8. 18. 22:55
728x90

오늘 배우는 목록 ~~ 퍼셉트론과 아달린, 선형 회귀모형, 로지스틱 회귀모형, 경사하강법 ~~ 이걸 한 강의만에~~?

통계학

데이터(경험)을 통해 배우는 과학

통계적 추론 : 적은 데이터로 모집단 일반화

 

답이 있는 데이터가 많아지고 컴퓨팅 능력 향상 -> 알고리즘 기반 머신러닝

 

통계학 딥러닝, 머신러닝
모수 parameter 가중치 weights
추정 estimation , 적합 fitting 학습 learning
회귀 , 분류 지도학습
군집화, 분포 추정 비지도학습
독립 변수 , 설명 변수 특징
종속 변수 , 반응 변수 레이블

통계모형 : X 면 Y 다 라는 인과구조를 찾는 것이 목적, Y=a + bX + error 에서 a, b 를 알아내는 것

딥러닝 모형 : 블랙박스 -> 결과 예측 목적

  전통적 통계모형 딥러닝 모형
데이터 크기 소규모 대규모
모형의 구조 데이터 = 생성구조 + error error가 주 문제 아님
모형의 크기 데이터 생성구조를 저차원 모형으로 파악 데이터 생성구조 복잡 - 고차원 모형(블랙박스)
모형의 평가 적합도, 유의성 예측력
모형의 작성 생성구조를 오차에서 분리 학습을 통해 데이터 복잡성 이해

 

확률 probability : 사건이 일어날 가능성. 0~1 사이 숫자로 표현

사건 B의 정보량 : I(B) = -log[P(B)] 

    P(B) : B가 일어날 확률

 

확률변수 : 표본공간의 특정 사건을 숫자로 바꿔주는 함수, 이산형 확률변수와 연속형 확률변수

분포를 알아볼 수 있는 것 -> 기댓값과 산포

 

기댓값


엔트로피

정보량의 기댓값

불확실성 지표

 

  1. X가 이산형인 경우, 확률질량함수

  2.  X가 연속형인 경우, 확률밀도함수


베르누이 분포

시행 결과가 둘 중 하나인 것

동전 던지기

X ~ Ber(p)

분류가 2개로 되는 머신러닝에 활용

확률질량함수 

 

멀티누이 분포

확률변수가 K개 범주일 때

주사위 던지기

 

정규 분포

연속형 변수 예측에 활용


퍼셉트론과 아달린

  • 초기 신경망 모형
  • 오차수정법으로 학습

퍼셉트론

1958년 로젠블랫 이미지 인식 기계인 퍼셉트론 개발

선형이진 분류기 binary

1949년 헵 학습 규칙

  • 시냅스가 약간 떨어져서 이어져있는데 시냅스가 흥분하면 연결된다 : 시냅스의 가소성

퍼셉트론은 손실함수없이 학습한다

가중치 값을 구한다

오차로 가중치 갱신

 

아달린

손실함수 정의

오차가 클수록, 입력값이 클수록 가중치가 많이 바뀜


선형 회귀모형

경사하강법으로 추정가능

최소제곱법

y_hat = w0 + w1x1 + error 에서 w0과 w1을 구하는 것이다.

최대가능도법

가능도 함수를 최대화하는 w0, w1 가중치를 구한다.

최대가능도법 추정결과 == 최소제곱법 추정결과


최적화 방법

머신러닝 == 최적화 optimization 문제

뉴턴의 방법, 경사하강법

 

뉴턴의 방법

f(x)=0 을 만족하는 x를 찾는다

f(x)를 미분해나가는게 0을 찾을 확률이 높다.

(J'(w)=0 손실함수 값을 찾는 것, J''(w) 미분 두번한거 )

 

w := w - J'(w)/J''(w) 

J(w) 2차 미분 가능 함수여야 함, 변수 수가 적어야 함

볼록함수에 좋다

 

경사하강법

손실함수의 대표적인 방법

현재 함수 위치에서 조금씩 이동해서 최솟값으로 (조금씩 가중치 갱신)

작은 학습률 : 오래걸릴 수 있음

큰 학습률 : 빨리되나 최저점을 못가고 맴돌수 있음

-> 처음에는 크게 학습하고 나중에 학습률을 줄여나감

 

확률적 경사하강법 SGD

데이터 100개 중 하나씩 사용

많이 돌아서 복잡하게 갈 수 있다

미니배치 경사하강법 (일부 데이터 이용)

 


epoch

전체 데이터를 학습하는 횟수

1 epoch : 훈련 데이터 1번 전체 학습

 

로지스틱 회귀모형

output : 2개 범주 -> 확률값으로 표현하는게 좋음 ( 0.5보다 크면 1, 작으면 0 .... )

sigmoid 함수 - 활성화 함수

가능도 함수를 최대화하는 가중치 : 로그가능도 함수

로그가능도 함수를 미분해서 최대화하는 w를 구하는 법 - 경사하강법

로그가능도 함수 최대화 = 손실함수 최소화

 

소프트맥스 회귀모형

output : 여러개 범주

softmax 함수 -활성화 함수

경사하강법으로 추정 가능


XOR 문제와 다층 신경망

XOR 문제

민스키와 페퍼트 : 퍼셉트론(1개 층 신경망)은 선형적 분류만 되고 XOR 문제를 해결 못한다

XOR문제를 아래와 같이 해결가능하겠다...!

728x90