Background

Preprocessing workflow

  1. 데이터(코퍼스) 수집
  1. 정제
  1. 레이블링(Optional)
  1. Tokenization
  1. Subword Segmentation(Optional)
  1. Batchify

Data Source

[<https://aihub.or.kr/aidata/87>](<https://aihub.or.kr/aidata/87>)

Preprocessing 수행

1. tsv 파일로 바꾸기