Transfer Learning이란?

특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법
- 위를 Upstream Task, 아래를 Downstream Task

Upsteam Task

Upstream Task란?
- 대규모 말뭉치의 문맥을 이해하는 과제
- 다음 단어 맞히기
  - GPT 계열 모델이 주로 사용하는 방법
  - 맞혀야 할 다음 단어를 예측
  - 단어 맞히기로 Upstream Task를 수행한 모델을 Language Model이라 함
- 빈칸 채우기
  - BERT 계열 모델이 주로 사용하는 방법
  - 문장에서 빈칸을 만들고 해당 위치에 들어갈 단어가 무엇일지 맞히는 과정에서 학습
  - 빈칸 채우기로 업스트림 태스크를 수행한 모델을 Masked Language Model이라 함

<aside> 💡 데이터 내에서 정답을 만들고 이를 바탕으로 모델을 학습하는 방법을 **Self-supervised learning(자기지도 학습)**이라고 함

</aside>

Downsteam Task

Downstream Task란?
- 자연어 처리의 구체적인 과제들
- 구체적인 예
  - 문서 분류: 자연어를 입력받아 해당 입력이 어떤 범주(긍정, 중립, 부정 따위)에 속하는지 확률값 반환
  - 자연어 추론: 문장 2개를 입력받아 두 문장 사이의 관계가 참, 거짓, 중립 등 어떤 범주인지 확률값 반환
  - 개체명 인식: 자연어를 입력받아 단어별로 기관명, 인명, 지명 등 어떤 개체명 범주에 속하는지 그 확률값을 반환
  - 질의응답: 자연어(질문+지문)를 입력받아 각 단어가 정답의 시작일 확률값과 끝일 확률값을 반환함
  - 문장 생성: 자연어(문장)를 입력받아 어휘 전체에 대한 확률값을 반환함
Downtsteam Task를 학습하는 방식
- Fine-tuning
  - Downstream Task 데이터 전체를 사용함
  - Downstream 데이터에 맞게 모델 전체를 업데이트함
- Prompt tuning
  - Downstream Task 데이터 전체를 사용함
  - Downstream 데이터에 맞게 모델 일부만 업데이트함
- In-context learning
  - Downstream Task 데이터의 일부만 사용함
  - 모델을 업데이트하지 않음
  - 종류
    - Zero-shot learning
      - Downstream Task 데이터를 전혀 사용하지 않음
      - 모델이 바로 Downstream Task를 수행함
    - One-shot learning
      - Downstream Task 데이터를 1건만 사용함
      - 모델은 1건의 데이터가 어떻게 수행되는지 참고한 뒤 Downstream Task를 수행함
    - Few-shot learning
      - Downstream Task 데이터를 몇 건만 사용함
      - 모델은 몇 건의 데이터가 어떻게 수행되는지 참고한 뒤 Downstream Task를 수행함