💬 한 눈에 살펴보기 Transformer 기반의 언어 모델들에 대한 정리 및 비교 AE의 목적은 값을 복원해 내는 것이다. BERT의 경우 token에 노이즈를 줌 -> 복원이므로 Denoising AE로 볼 수 있다. likelihood를 최대화하는 게 목적이다. XLNet 1.Permutation Language Modeling Objective Permutation 집합을 통해 다양한 sequence를 고려함 -> AR Objectibe func에 대입 -> 특정 token에 양방향 context를 고려할 수 있음 2. Target-Aware Representaton for Transformer 3. Two-Stream Self-Attention 4. Transformer-XL : 2 segmen..