형태소 분석기를 활용하여 분절 수행; ex) Mecab
<aside> 💡 한국어의 경우
</aside>
단어보다 더 작은 의미 단위 추가 분절 수행
BPE 압축 알고리즘을 통해 통계적으로 더 작은 의미 단위(subword)로 분절 수행
BPE를 통해 OoV(Out of Voca)를 없앨 수 있으며, 이는 성능상 매우 큰 이점으로 작용 ⇒ 특히, 자연어 생성에서 중요
<aside> 💡 - 영어권에서는 Tokenization없이 subword segmentation만 쓰는 경우도 있음
</aside>
[<https://aihub.or.kr/aidata/87>](<https://aihub.or.kr/aidata/87>)