DistilBERT란?

250x250

Notice

Recent Posts

Tags more

Archives

관리 메뉴

여정의 기록

공부/프로젝트 진행

Chelsey 2022. 7. 22. 16:16

728x90

DistilBERT== BERT의 distilled 버전
BERT보다 더 작지만 빠르고 저렴하며 가벼운 것이 특징이다.
distilling BERT를 base로 trained한 Transformer model 이다.
bert-base-uncased보다 파라미터가 60%만 사용하고
GLUE language understanding benchmark 에서 측정한 BERT의 90% 성능은 유지하면서도 60% 더 빠르다고 한다.
BERT의 경우 large-sclae pretrained model이기 때문에 a smaller general-purpose를 위해 DistilBERT가 사용된다고 한다.
BERT model과 같은 loss 계산 방법이다.
문장 중 단어를 15%를 랜덤으로 masks진행한다. masked words를 추측하는데 이는 RNNs, GPT와 다른점이다. - word 하나씩 보는
a bidirectionalrepresentation of the sentence -> 양방향으로 학습한다

TIP)

728x90

wav 음성파일 silence 제거함수 librosa.effects.split (0)	2022.08.13
librosa.effects.trim. wav 음성파일에서 공백제거 (0)	2022.08.12
Deep Residual Learning for Image Recognition 공부 (0)	2022.07.29
Bert Uncased와 cased의 차이 (0)	2022.07.22
colab에서 내가 만든 module import 하는 법 (0)	2021.11.22

'공부/프로젝트 진행' Related Articles