https://huggingface.co/blog/how-to-train 를 읽다가 BPE가 나와서 공부.
“2. Train a tokenizer”라는 챕터가 있음. tokenizer를 학습한다? tokenizer를 만들 순 있겠지만 tokenizer를 학습한다는 것은 무엇일까? BPE는 무엇일까?
공부한 결과
BPE는 1994년에 만들어진 알고리즘으로서 최초엔 압축에 사용되었음. 그런데 GPT2에서 OOV (Out of Vocabulary) 문제를 해결하기 위해 사용됨.
참고한 자료
- https://wikidocs.net/22592
- https://velog.io/@gwkoo/BPEByte-Pair-Encoding