문장을 토큰 시퀀스로 나누는 과정
tokenizer: 토큰화를 수행하는 프로그램
품사 부착(Part-of-Speech tagging)가지 수행하기에, 넓은 의미에서 토큰 나누기에 품사 부착까지 함께 말하는 경우도 있음
단어(어절) 단위 토큰화
문자 단위 토큰화
서브워드 단위 토큰화
Byte Pair Encoding: BPE
Wordpiece