💬 한 눈에 살펴보기 Transformer 기반의 언어 모델들에 대한 정리 및 비교 AE의 목적은 값을 복원해 내는 것이다. BERT의 경우 token에 노이즈를 줌 -> 복원이므로 Denoising AE로 볼 수 있다. likelihood를 최대화하는 게 목적이다.
XLNet 1.Permutation Language Modeling Objective Permutation 집합을 통해 다양한 sequence를 고려함 -> AR Objectibe func에 대입 -> 특정 token에 양방향 context를 고려할 수 있음 2. Target-Aware Representaton for Transformer
3. Two-Stream Self-Attention
position3은 위치 정보가 아니라 token의 정보를 반영한다
4. Transformer-XL : 2 segment 이상의 long sequence를 위해 고안됨. idea (1) Relative positional encoding (2) Segment Recurrence Mechanism
5. Training - permutation 집합에서 하나의 token을 예측할 때마다 마지막 k개의 예측만 사용함 (pretraining K = 6) pactorization order가 4개인 경우, 24개의 집합이 나타날 수 있다. 24개 중 마지막 토큰 _개만 예측한다. - permutation 집합 자체도 샘플링을 한다. - XLNet-large는 NSP objective를 사용하지 않음
6. Results
Roberta
BERT는 underfit한 모델이기 때문에 가장 최적화된 BERT 모델을 만든 것이 roberta이다. model은 BERT와 동일하기 때문에 구조적 변화가 전혀 없으나 타 모델 대비 성능이 높다.
MASS
Seq-to-seq를 가져오되 masking 방식이 달라졌다. XLNet도 encoder-decoder을 결합해서 AE, AR을 차용한 건데, MASS도 XLNet의 구조를 사용했다.
Encoder과 Decoder의 input을 다르게 함으로서 Decoder가 Encoder에 더 의존하게 한다.
BART
noise된 input이 조금 다른 것 빼고는 MASS와 매우 유사하다. Encoder에만 노이즈를 준다. Noise 방법론 다섯 가지 Results
MT-DNN
BERT에 Multi-task learning을 적용한 논문이다. 앞서서 AE+AR을 봐왔다면, MT-DNN은 AE에 object learning만 가지고 있다.
Multi-task learning이란? - 몇 개의 task를 함께 학습하는가? 모델 구조 pre-train 단계에서 여러 task를 학습하면서 representation을 생성한다. Training