search:

TIL - 2023.09.16 - BPE (Byte Pair Encoding)

16 Sep 2023

https://huggingface.co/blog/how-to-train 를 읽다가 BPE가 나와서 공부.

“2. Train a tokenizer”라는 챕터가 있음. tokenizer를 학습한다? tokenizer를 만들 순 있겠지만 tokenizer를 학습한다는 것은 무엇일까? BPE는 무엇일까?

공부한 결과

BPE는 1994년에 만들어진 알고리즘으로서 최초엔 압축에 사용되었음. 그런데 GPT2에서 OOV (Out of Vocabulary) 문제를 해결하기 위해 사용됨.

참고한 자료

  • https://wikidocs.net/22592
  • https://velog.io/@gwkoo/BPEByte-Pair-Encoding