Chelsey 2022. 7. 22. 16:16
728x90
  1. DistilBERT== BERT의 distilled 버전
  2. BERT보다 더 작지만 빠르고 저렴하며 가벼운 것이 특징이다.
  3. distilling BERT를 base로 trained한 Transformer model 이다.
  4. bert-base-uncased보다 파라미터가 60%만 사용하고
  5. GLUE language understanding benchmark 에서 측정한 BERT의 90% 성능은 유지하면서도 60% 더 빠르다고 한다.
  6. BERT의 경우 large-sclae pretrained model이기 때문에 a smaller general-purpose를 위해 DistilBERT가 사용된다고 한다.
  7. BERT model과 같은 loss 계산 방법이다.
  8. 문장 중 단어를 15%를 랜덤으로 masks진행한다. masked words를 추측하는데 이는 RNNs, GPT와 다른점이다. - word 하나씩 보는
  9. a bidirectionalrepresentation of the sentence -> 양방향으로 학습한다

 

TIP)

  • token_type_ids 가 없으므로 token이 어디에 속하는지 나눌 필요가 없다. 
  • input positions를 선택할 옵션이 없다.  

 

 

 

 

 

 

https://huggingface.co/docs/transformers/model_doc/distilbert

728x90