DistilBERT란?

공부/프로젝트 진행

Chelsey 2022. 7. 22. 16:16

728x90

DistilBERT== BERT의 distilled 버전
BERT보다 더 작지만 빠르고 저렴하며 가벼운 것이 특징이다.
distilling BERT를 base로 trained한 Transformer model 이다.
bert-base-uncased보다 파라미터가 60%만 사용하고
GLUE language understanding benchmark 에서 측정한 BERT의 90% 성능은 유지하면서도 60% 더 빠르다고 한다.
BERT의 경우 large-sclae pretrained model이기 때문에 a smaller general-purpose를 위해 DistilBERT가 사용된다고 한다.
BERT model과 같은 loss 계산 방법이다.
문장 중 단어를 15%를 랜덤으로 masks진행한다. masked words를 추측하는데 이는 RNNs, GPT와 다른점이다. - word 하나씩 보는
a bidirectionalrepresentation of the sentence -> 양방향으로 학습한다

TIP)

728x90