여정의 기록
DistilBERT란? 본문
728x90
- DistilBERT== BERT의 distilled 버전
- BERT보다 더 작지만 빠르고 저렴하며 가벼운 것이 특징이다.
- distilling BERT를 base로 trained한 Transformer model 이다.
- bert-base-uncased보다 파라미터가 60%만 사용하고
- GLUE language understanding benchmark 에서 측정한 BERT의 90% 성능은 유지하면서도 60% 더 빠르다고 한다.
- BERT의 경우 large-sclae pretrained model이기 때문에 a smaller general-purpose를 위해 DistilBERT가 사용된다고 한다.
- BERT model과 같은 loss 계산 방법이다.
- 문장 중 단어를 15%를 랜덤으로 masks진행한다. masked words를 추측하는데 이는 RNNs, GPT와 다른점이다. - word 하나씩 보는
- a bidirectionalrepresentation of the sentence -> 양방향으로 학습한다
TIP)
- token_type_ids 가 없으므로 token이 어디에 속하는지 나눌 필요가 없다.
- input positions를 선택할 옵션이 없다.
https://huggingface.co/docs/transformers/model_doc/distilbert
728x90
'공부 > 프로젝트 진행' 카테고리의 다른 글
wav 음성파일 silence 제거함수 librosa.effects.split (0) | 2022.08.13 |
---|---|
librosa.effects.trim. wav 음성파일에서 공백제거 (0) | 2022.08.12 |
Deep Residual Learning for Image Recognition 공부 (0) | 2022.07.29 |
Bert Uncased와 cased의 차이 (0) | 2022.07.22 |
colab에서 내가 만든 module import 하는 법 (0) | 2021.11.22 |