공부/프로젝트 진행

Bert Uncased와 cased의 차이

Chelsey 2022. 7. 22. 02:34
728x90

Kaggle에서 다른 사람들이 해놓은 노트북을 구경하다가

Bert Uncased 모델을 사용한 것을 보고, uncased와 cased의 차이점을 찾아보았다

 

Bert Uncased는

1. input 텍스트를 소문자로 만들어준다

2. 어떠한 accent markers를 없애준다

 

예를 들어

1. MyDrive -> mydrive

2. français -> francais

 

로 변환해준다

 

Bert cased의 경우

1. MyDrive -> MyDrive

2. français -> français

로 변환해주지 않는다

 

Named Entity Recognition, Part-of-Speech tagging 의 경우 Bert cased가 낫고,

이를 제외한 대부분은 Bert Uncased를 사용하는것이 더 좋다.

 

여기서 Bert cased는 고유의 이름같은것을 말하는 듯 하다.

 

고유 이름을 변환하지 않는게 좋다고하니 유럽여행을 갔을 때가 생각난다.

길을 찾을 때 역이름이 accent markers가 없어진채로 나오니 잘못본게 아닐까 불안했던 기억이 난다.

 

 

 

 

아래 사이트의 내용을 참고하였다

https://iq.opengenus.org/bert-cased-vs-bert-uncased/

 

BERT cased vs BERT uncased

We have explored the difference between BERT cased and BERT uncased. BERT uncased and BERT cased are different in terms of BERT training using case of text in WordPiece tokenization step and presence of accent markers.

iq.opengenus.org

 

728x90