목록공부중 .../딥러닝의통계적이해 (12)
여정의 기록

수업이 너무 어렵다. 너무 어려운 내용이기도 하고 잘 못알아듣겠다 ㅠ 자막이라도 있었으면 하는 맘이든다. 그래도 나름의 방법을 찾아보고 있다. 학습목표를 적어두고 확인하며 수업을 들어보려고 한다. 평소엔 강의를 듣고 정리하며 블로그에 기록했지만 오늘은 강의 내용을 최대한 그대로 적으며 복기라도 할 수 있도록 노력해보겠다 ^^ ... (그래서 오늘 기록은 줄글 형식이 대부분이다 ) Transformer의 scaled-dot-product와 multi-head attention에 대해 이해한다. BERT 모형에 대해서 이해한다. BERT 이후 자연어 모형의 발전 흐름에 대해 이해한다. 결국 모두 이해한다로 끝나는 목표들이지만, 다른 사람에게 설명할 수 있도록 열심히 들어보자 최근 모형들은 BERT 모형에서 ..
Embedding Categorical data를 다룰 때 지시변수를 많이 사용한다. 하지만 one hot encoding 방식처럼 범주화 데이터를 다루게되면 데이터가 무한히 커지게된다. -> Fixed Effect 모델 방식 그래서 비슷한 성격의 것을 묶어서 하나의 것으로 보고 다루는 방식을 쓰게 된다.색상이 결과에 영향을 미치는지 정도만 알고 싶을 때 사용 -> Random Effect 모델 방식 One-hot encoding 통계의 지시변수로 수많은 범주화 값을 0과 1로 표현하는 방식이다. 단어의 개수가 많아질 수록 모형이 커진다. 통계학적 방법에 적합하지 않은 방식이다. 이러한 고민 끝에 나온게 Embedding이다. Embedding 의미구조를 유지하면서 단어를 수치화. 단어의 구조를 학습해서..
인자 분석 Factor Analysis 관측값들이 영향을 주는 잠재인자가 있지 않을까? - 변수들과 공통 인자들 사이의 관계 파악 -> 변수들간의 공분산 구조 파악 주성분 분석이 차원 축소 목표 / 인자 분석은 관찰 불가한 인자를 찾아 변수 사이와의 구조를 찾는게 목표 직교 인자 모형 고나찰 가능한 X의 공분산 행렬은 총 p(p+1)/2개의 모수를 가짐 q개의 인자를 가진 인자 모형은 pq+p= p(q+1)개의 모수를 가짐 q function G -> ... ??? 목적 함수가 있다 .... 장점 : 생성된 이미지가 실제 이미지처럼 선명 단점 : Mode collapsing이 생김 - 다양하게 이미지를 못 씀 DCGAN - input 에서 은닉층을 쌓아가며 노드가 줄어들게 된다. - dimension을 ..
비지도 학습법 Unsepervised learning 기계 학습 종류 데이터의 특징을 알아내는 목표 차원축소, 밀도 추정, 군집 분석, 독립성 분석 등 확률 모형 기반 분석 아닌 것 (Geometry 이용해서 분석) 주성분 분석 군집 분석 확률 모형 기반 분석 인자 분석 밀도 추정 심층 비지도 학습법 Deep unsupervised learning 딥러닝 종류 확률 모형 기반 분석이 아닌 것 Auto Encoder Deep clustering 확률 모형 기반 Generative Adversarial Network (GAN) Variational Auto Encoder 주성분 분석 차원 축소 기법 변수의 수를 줄이는 탐색적 자료 분석의 과정 변수 변환 feature transformation - 선형조합으..
전이학습 transfor learning for 높은 정확도의 딥러닝 모형 for 딥러닝 모형의 설계 및 하이퍼파리미터의 조정 need 대량의 학습 데이터, 고성능 컴퓨팅, 긴 학습 시간 이미 만들어진 + 경진대회에서 우승한 경력이 있는 학습된 모델을 사용하면 더 간편하게 모형을 가질 수 있다. 이미 훈련된 신경망으로 신경망 학습 좋은 초깃값을 가진다 객체 검출 이미지 식별 + 이미지 위치 찾는 작업 지도학습 지역화 localization (위치를 박스로 쳐놓은 것) 사례 분할 instance segmentation ( 박스가 아닌 픽셀로 객체를 구분, 비슷한 것끼리 모아서 객체를 형태대로 분할, 식별함) 객체 검출 데이터셋 이미지넷 데이터베이스 (1개 이미지 당 1.1개 객체 밖에 없는 제약) PASC..
합성곱 신경망에서 풀링층을 제외한 모든 층의 가중치들은 손실함수를 최소화하는 오차역전파법으로 구한다. 학습 후 필터값이 변화하는데 이를 통해 필터는 특색을 가지게 된다. (이미지의 어떤 부분을 강조하게 되는지) 풀링층 순전파 : max pooling을 통해 4*4 데이터가 2*2가 되는 것, down sampling 역전파 : 최댓값의 위치는 1, 선택되지 않은 곳은 0, up sampling AlexNet 병렬 컴퓨팅을 위해 2개의 구조로 나눔 , GPU 이용한 병렬 계산 입력 데이터 크기 227*227*3의 컬러이미지 -> 출력층 1000개의 이미지 합성곱층 가중치 수는 전체의 6%, 완전연결층 가중치 수는 전체 94% ReLU 함수 사용해봄. 데이터 증강 드롭아웃 50% - 과대적합 방지 위해 완전..
아날로그 데이터를 일정 간격으로 샘플링하여 측정한다. 아날로그 데이터는 무한한 범위이고 디지털 데이터는 비트로 표현하게 된다. 이미지는 어떻게 표현하는가? 2차원 함수 형태의 행렬로 표한하게 된다. 흑백 이미지 : 1개의 행렬 8 * 8 의 흑백이미지의 경우 : 4비트 색상의 행렬로 표현한다 0 : 검정색, 16 : 흰색 컬러 이미지 : Red, Green, Blue (RGB) 3개 행렬로 표현 컴퓨터 비전 컴퓨터 저장 이미지 또는 동영상으로부터 유용한 정보 추출, 분석, 이해 이미지 분류, 객체 탐색과 검출, 객체 분할(영역을 쪼개주는 것), 얼굴인식, 이미지 합성 등 이미지 인식과 신경망 완전연결 신경망 : 이미지 작업이 어렵다. 과대적합 문제. 입력층에 수천만 개의 변수를 입력해야함. 모든 뉴런들을..

딥러닝 모형 학습시 문제 경사소실 초깃값 설정 : 초깃값을 잘못 설정하면 손실함수가 국지적 최솟값에 머뭄 과대적합 경사하강법 - 학습시간이 너무 오래걸리고, 국지적에만 최적화 오늘은 이러한 문제를 해결하는 방법들에 대해 알아보고자 한다. 활성화 함수 선택(경사소실 문제 해결방법 : ReLU의 등장) Sigmoid 미분 : 0에서 최댓값 0.25, x가 0에서 멀어질 수록 경사값이 0으로 간다 -> 경사소실 문제 tanh 미분 : x가 0이면 최댓값 1을 가진다. But, 0에서 멀어질 수록 시그모이드 함수의 미분보다 빠르게 경사값은 0이 된다. -> 경사소실 문제 => tanh 미분의 경사소실이 x가 0 부근 일땐 시그모이 함수보다 작지만 but, 그 외 미분값이 1보다 작아 경사손실이 발생한다. 하지만..