AI TECH/논문

Transformer 기반의 언어 모델들에 대한 정리 및 비교

prefer_all 2023. 1. 9. 15:14
💬 한 눈에 살펴보기
Transformer 기반의 언어 모델들에 대한 정리 및 비교 

AE의 목적은 값을 복원해 내는 것이다. BERT의 경우 token에 노이즈를 줌 -> 복원이므로 Denoising AE로 볼 수 있다. likelihood를 최대화하는 게 목적이다.
XLNet
1.Permutation Language Modeling Objective 

Permutation 집합을 통해 다양한 sequence를 고려함 -> AR Objectibe func에 대입 -> 특정 token에 양방향 context를 고려할 수 있음

2. Target-Aware Representaton for Transformer


3. Two-Stream Self-Attention

position3은 위치 정보가 아니라 token의 정보를 반영한다

4. Transformer-XL : 2 segment 이상의 long sequence를 위해 고안됨.
idea (1) Relative positional encoding (2) Segment Recurrence Mechanism

5. Training
- permutation 집합에서 하나의 token을 예측할 때마다 마지막 k개의 예측만 사용함 (pretraining K = 6)
  pactorization order가 4개인 경우, 24개의 집합이 나타날 수 있다. 24개 중 마지막 토큰 _개만 예측한다.

- permutation 집합 자체도 샘플링을 한다.
- XLNet-large는 NSP objective를 사용하지 않음

6. Results

Roberta

BERT는 underfit한 모델이기 때문에 가장 최적화된 BERT 모델을 만든 것이 roberta이다.
model은 BERT와 동일하기 때문에 구조적 변화가 전혀 없으나 타 모델 대비 성능이 높다.
MASS

Seq-to-seq를 가져오되 masking 방식이 달라졌다. XLNet도 encoder-decoder을 결합해서 AE, AR을 차용한 건데, MASS도 XLNet의 구조를 사용했다.

Encoder과 Decoder의 input을 다르게 함으로서 Decoder가 Encoder에 더 의존하게 한다.
BART

noise된 input이 조금 다른 것 빼고는 MASS와 매우 유사하다. Encoder에만 노이즈를 준다.

Noise 방법론 다섯 가지

Results
MT-DNN

BERT에 Multi-task learning을 적용한 논문이다.
앞서서 AE+AR을 봐왔다면, MT-DNN은 AE에 object learning만 가지고 있다.

Multi-task learning이란?
- 몇 개의 task를 함께 학습하는가?

모델 구조
pre-train 단계에서 여러 task를 학습하면서 representation을 생성한다.


Training


Results
데이터 양이 적을 때 높은 성능을 보인다.