공부/프로젝트 진행
DistilBERT란?
Chelsey
2022. 7. 22. 16:16
728x90
- DistilBERT== BERT의 distilled 버전
- BERT보다 더 작지만 빠르고 저렴하며 가벼운 것이 특징이다.
- distilling BERT를 base로 trained한 Transformer model 이다.
- bert-base-uncased보다 파라미터가 60%만 사용하고
- GLUE language understanding benchmark 에서 측정한 BERT의 90% 성능은 유지하면서도 60% 더 빠르다고 한다.
- BERT의 경우 large-sclae pretrained model이기 때문에 a smaller general-purpose를 위해 DistilBERT가 사용된다고 한다.
- BERT model과 같은 loss 계산 방법이다.
- 문장 중 단어를 15%를 랜덤으로 masks진행한다. masked words를 추측하는데 이는 RNNs, GPT와 다른점이다. - word 하나씩 보는
- a bidirectionalrepresentation of the sentence -> 양방향으로 학습한다
TIP)
- token_type_ids 가 없으므로 token이 어디에 속하는지 나눌 필요가 없다.
- input positions를 선택할 옵션이 없다.
https://huggingface.co/docs/transformers/model_doc/distilbert
728x90