[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] ODQA/Latent Retrieval for Weakly Supervised Open Domain Question Answering
๐ฌ ํ์๋ ์คํฐ๋ ์๊ฐ์ ๋ค๋ฃฌ ๋ฉํ ๋์ ์ฝ๋ฉํธ, ์ง์์๋ต ๋ด์ฉ์ ๋ฌ์๋ ๊ฒ์ด๋ค.
๐ฌ BERT์ 3์ ์๊ฐ ์ด ๋ ผ๋ฌธ์ 1์ ์์ด๋ค.
Introduction
ODQA์ ๊ธฐ์กด ์ฐ๊ตฌ ํ๊ณ์
1. Given-evidence to open corpus
ํ์ค์์๋ ๋ต๋ณ์ ์ํ evidence๊ฐ ๋ฐ์ดํฐ ์
์ ํจ๊ป ์ฃผ์ด์ง์ง ์๋ ๊ฒ ์ผ๋ฐ์ ์ด๋ค.
2. Reliance on IR system(Information Retrieval)
search space๋ฅผ ์ค์ด๊ธฐ ์ํด IR system์ ๊ฒฐ๊ณผ๋ฌผ์ ์์กดํ๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ IR๊ณผ QA๋ ๋ค๋ฅด๋ค.
QA๋ IR๋ณด๋ค ๋ ๋ง์ language understanding ๋ฅ๋ ฅ์ด ํ์ํ๋ค.
3. QA์์ ์ฌ์ฉ์๋ ์๋์ ์ผ๋ก ๋ช
ํํ๊ฒ ์๋ ค์ง์ง ์๋ ์ ๋ณด๋ฅผ ์ง๋ฌธํ๊ธฐ ๋๋ฌธ์
IR ์์คํ
์์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๋ ๊ฒ ๋์ ์ง์ ์ ์ผ๋ก QA ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ retrieve๋ฅผ ํ์ตํด์ผ๋ง ํ๋ค.
์ ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด IR system์ ์์กดํ์ง ์๊ณ , evidence์์ด Question-answering ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ retriever๋ ํจ๊ป ํ์ต์ํค๋ ํ์ดํ ๋ผ์ธ ์ ์ํ๋ค.
retrieval๊ฐ ๊ฑฐ๋ํ open corpus ์์ ์ฒ์๋ถํฐ ํ์ตํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๊ณ , ICT๋ก ์ฌ์ ํ์ต์ํด์ผ๋ก์จ end-to-end ํ์ต์ด ๊ฐ๋ฅํ๋ค.
๐ฌ Passage๊ฐ ์๋ evidence๋ผ๊ณ ํ๋ ์ด์ ๋?
์ํคํผ๋์ ๋ฌธ์ ํ๋์ ๋๋ฌด ๋ง์ ํ ์คํธ๊ฐ ์ ํ ์๊ณ ์ฌ๊ธฐ์ gold passage๊ฐ ๋ฌด์์ธ์ง ์ ๋ณด๊ฐ ์๋ ์ํ์์, ์ฐ๋ฆฌ๋ block์ ์ฐพ๋๋ค. ํ๋์ block์ด ์ ๋ต์ผ ์๋ ์๊ณ ์๋ ์๋ ์์ด์ "evidence"๋ผ๊ณ ํ๋ค.
์ค์ ๋ก ํ์ต์ ํ ๋, ์ํคํผ๋์ ํ ํ์ด์ง๋ฅผ ๋ค ์ธ ์ ์์ด์ top -k ๋ฅผ ํตํด ์์๋ด์ pretrainํ๋ค.
IR์ evidence๋ผ๋ ์ฉ์ด๋ฅผ ๋ง์ด ์ฐ๊ณ , ์ต๊ทผ์๋ passage๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
Related Work
๋๋ถ๋ถ์ retrieval-based / open domain / QA system์ ์๋์ ๊ฐ์ notation์ ์ฌ์ฉํ๋ค.
Question q๊ฐ ์ฃผ์ด์ก์ ๋, answer derivation (b,s)์์ answer string a๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ฉฐ, ์ด๋ฅผ Score function S๋ก ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
Inference์ output a๋ฅผ ์ฐพ๋ ๊ณผ์ ์ ์๋์ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
์ด๋ฒ ๋
ผ๋ฌธ์ component scoring์ ์๋กญ๊ฒ ์ ์ํ๋ฐ ์ค์ฌ์ ๋๊ณ ์์ผ๋ฏ๋ก, ์ด์ ๋
ผ๋ฌธ์ component์ score function S_retr์ S_read๊ฐ ์ด๋ค์์ผ๋ก ์ ์ ๋์๋์ง ๊ฐ๋ตํ๊ฒ ์์๋ณด์.
์ ์ ๋ฐฉ๋ฒ๋ก
Retriever๊ณผ Reader๊ฐ ๊ณต๋์ผ๋ก ํ์ต๋๋ end-to-end ๋ชจ๋ธ์ธ ORQA๋ฅผ ์ ์ํ๋ค.
- ORQA ๋ ์ค๋ก์ง question-answer (์ง๋ฌธ๊ณผ ๋ต๋ณ ์ ๋ฐ์ดํฐ) ๋ก๋ง ํ์ต ํ์ฌ open corpus ๋ด์์ evidence๋ฅผ ์ฐพ๋๊ฒ์ ํ์ตํ๋ค. ⇒ ORQA ๋ open corpus ๋ด์์ ์ด๋ค text ๋ ๊ฒ์ํ ์ ์๋ค. ํ์ง๋ง ๊ธฐ์กด QA ๋ black-box IR ์ ์ํด ๋ฐํ๋๋ closed set ์ ์ ํ๋๋ค.
- Retriever ๋ฅผ ICT ๊ธฐ๋ฒ์ ํตํด Pre-train ์ ์งํํ๋ค. ⇒ Word matching features ๊ทธ ์ด์์ ํ์ต ํ ์ ์๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ
ORQA ๋ Retriever ์ Reader ๋ก ๋๋ ์ ์๋ค.
Retriever ๋ open corpus ์์ evidence๊ฐ ๋ ์ ์๋ evidence block ์ ๊ฒ์ํ๋ค.
Reader ๋ Retriever ์์ ๋์จ Top-k ์ ํด๋นํ๋ evidence block ์์ answer ๊ฐ ๋ ์ ์๋ ํ๋ณด๋ฅผ ์ฐพ๊ณ ๊ฐ์ฅ ๋์ ์ ์๋ฅผ ๊ฐ์ง๋ answer ๋ฅผ ์ต์ข
์ ์ธ answer ๋ก ์ ์ ํ๋ค.
Retriever component
Retrieval score๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
q: question / b: evidence block / W: BERT์ representation vector๋ฅผ 128 dimensional vector๋ก ๋ฐ๊ฟ์ฃผ๋ ํ๋ ฌ
์ ์์์ ์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค. ์ดํ Top-k๋ก ๊ฐ์ฅ ๋์ ์ ์ k๊ฐ๋ฅผ ์ ํํ๊ณ , ๋ต์ ๊ฐ์ง๊ณ ์๋ k๊ฐ์ evidence block์ ์ ์ ํ๋ค.
Reader component
Following Lee et al. (2016), a span is represented by the concatenation of its end points, which is scored by a multi-layer perceptron to enable start/end interaction. (Span์ MLP์ ์ํด ์ ์๊ฐ ๋งค๊ฒจ์ง end points์ ์ฐ๊ฒฐ์ ์ํด ํํ๋๋ค.์ด๋ start/end ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํจ์ด๋ค.)
Challenges
๋ชจ๋ธ์ ๊ฐ๋
์ ์ผ๋ก ๊ฐ๋จํ์ง๋ง, ํ์ตํ๋ ๊ณผ์ ์ ์์ด์ ๋ค์๊ณผ ๊ฐ์ ์ด๋ ค์์ด ์กด์ฌํ๋ค.
1. open evidence corpus ๋ ๋๋ฌด๋๋ ํฐ search space ๋ฅผ ๋ณด์ฌ์ค๋ค. (๋ณธ ๋
ผ๋ฌธ์์๋ 1300๋ง ์ด์์ evidence block ์ด ์กด์ฌํ๋ค๊ณ ํ๋ค.)
2. ๋๋ฌด๋๋ ํฐ search space ๋ฅผ ํ์ํ๋ ๋ฐฉ๋ฒ์ ์ ์ฌ์ ์ด๋ค. ๊ทธ๋์ teacher-forcing ๊ธฐ๋ฒ์ผ๋ก ํ์ต์ํฌ ์ ์๋ค.
3. Latent-variable (์ ์ฌ-๋ณ์) ๋ฐฉ๋ฒ์ ๊ทน๋จ์ ์ผ๋ก ๋ชจํธํ ๊ฒฐ๊ณผ๋ฌผ์ ์๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ ๋จ์ํ ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค.
๐ฌ ๋ชจํธํ ๊ฒฐ๊ณผ?
QA์์ Passage/Evidence๋ ์ค์ liklihood ๊ณ์ฐ ์ ๋ชจ๋ ๊ณ ๋ คํ ์ ์๋ค. answer์ ํ๋ฅ ๊ณ์ฐ ์ ์ฌ์ค ๋ชจ๋ Passage์์ answer ํ๋ณด๊ตฐ์ ํ๋ฅ ์ ๊ณ์ฐํด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ชจํธํ๋ค๋ ๋ง์ ์ด๋ฌํ ๋งฅ๋ฝ์์ ๋์๋ค.
Answer ๊ฐ ‘seven’ ์ผ๋, Supportive Evidence ๋ฟ๋ง ์๋๋ผ Spurious Ambiguity ์์๋ seven ์ด๋ผ๋ ๋จ์ด๊ฐ ์กด์ฌ ํ๋ค. ⇒ ๋งฅ๋ฝ์ ์ดํดํ์ง ๋ชปํ์ฑ seven ์ด๋ผ๋ word matching ์ ํตํด ๋ชจํธํ evidence block ์ ์ ํ ํ ์ ์๋ค.
ICT(Inverse Cloze Task)โญ
์์ challenge๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋
ผ๋ฌธ์์๋ Retriever์ ICT ๊ธฐ๋ฒ์ ํตํด Pretrainํ๋ ๋ฐฉ์์ ์ ์ํ๋ค.
Cloze Task ๋ ๋งฅ๋ฝ์ ๊ธฐ๋ฐ์ผ๋ก ๋ง์คํน๋ text ๋ฅผ ์ ์ถํ๋ ๊ฒ์ธ๋ฐ, ICT ๋ ๊ทธ ๋ฐ๋๋ก text ๋ฅผ ํตํด ๋งฅ๋ฝ์ ์ ์ถํ๋ Task ์ด๋ค.
๐ฌ MLM๊ณผ ICT์ ์ฐจ์ด
Pretrain์ ๊ฐ์ฅ ๋ณดํธ์ ์ธ ๋ฐฉ์์ MLM(Masked Language Model)์ด๋ค. text representation์ ์ ํ๊ธฐ ์ํด์ mask๋ฅผ ๋ณต๊ตฌํ๋ค. MLM์ token ๋จ์๋ผ๋ฉด, ICT๋ sentence ๋จ์์ด๋ค.
์ ๊ทธ๋ฆผ์์ 1๋ฒ index์ context์์ ๊ฐ์ ธ์จ ํ๋์ ๋ฌธ์ฅ์ด pseudo-question์ ์ญํ ์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ธ์จ ๋งฅ๋ฝ์ด pseudo-evidence๊ฐ ๋๋ค. ์ด๋ฅผ ์์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค.
๐ฌ Pseudo-question๊ณผ question์ ์ฐจ์ด
Pseudo-question์ ์ ๊ทธ๋ฆผ์์์ฒ๋ผ ์ง๋ฌธ์ ํํ๊ฐ ์๋ ์ ์๋ค.
Pseudo-question์ ๋ผ๋ฒจ๋ง์ด ์ ๋์ด ์๋ค. ํน์ input ๊ทผ์ฒ์ ์๋ ๊ฒ์ positive๋ก ๊ณ ๋ คํ๋ฉฐ ๋ง๋ค์ด์ง ๋ฌธ์ฅ์ด๋ค.
ORQA๋ ์ํคํผ๋์์ ํน์ ๋ธ๋ก์ Pseudo-query๋ก ๋ณด๊ณ , QA๊ฐ ์๋๋ผ ๊ด๋ จ output์ ์ฐพ๋ ์ ์ฒด ๊ณผ์ ์์ฒด๋ฅผ ํ์ตํ๋ค.
์ฆ, 2 stage learning์ผ๋ก ๋ณด๋ฉด ๋๋๋ฐ ์ฒซ๋ฒ์งธ ๋จ๊ณ๊ฐ pretrain(ICT)์ด๊ณ ๋๋ฒ์งธ ๋จ๊ณ๊ฐ finetuning์ด๋ค.
ICT์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
1. word matching features ์ด์์ ๊ฒ์ ํ์ต ํ ์ ์๋ค.
- ์ค์ QA ์์๋ ์ง๋ฌธ์์ ์ธ๊ธ๋์ง ์์ ๋ถ๋ถ์ ์ฐพ์์ ๋ต์ ํด์ฃผ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ด ์ ์ด ์ ๋ณด ๊ฒ์๊ณผ๋ ๋ค๋ฅธ ๋ถ๋ถ์ด๋ค.
- ๊ทธ๋ ๋ค๊ณ ํด์ word matching ์ด ํ์ ์๋๊ฒ์ด ์๋๋ผ, ๋งค์ฐ ์ค์ํ feature ์ค ํ๋์ด๋ค. ๊ทธ๋์ 90% ์ ์์์์ context ์์ ๋ฌธ์ฅ์ ์ ๊ฑฐ ํจ์ผ๋ก์จ , low-level ์ word matching ๊น์ง ํ์ตํ๋๋ก ํ๋ค.
2. ์ฌ์ ํ๋ จ ์ค ๋ฌธ์ฅ๊ณผ Fine-tuning ์ Question ๊ฐ ๋ถ์ผ์น ํด๋, zero-shot evidence ๊ฒ์ ์ฑ๋ฅ์ด ์ ์ฌ๋ณ์ ๋ถํธ์คํธ๋ฉ ํ๊ธฐ์ ์ถฉ๋ถํ๋ค.
3. pre-train ์ , evidence block ๊ณผ downstream ์ , evidence block ๊ฐ์ ๋ถ์ผ์น๊ฐ ์กด์ฌํ์ง ์๋๋ค.
- evidence block ์ ์ธ์ฝ๋ฉ ํ๋ BERT_B ๋ฅผ ํ์ต ํ ํ์๊ฐ ์๋ค. Question encoder ์ธ BERT_Q ๋ง fine-tuning ์ ๊ฑฐ์น๋ค.
4. spurious ambiguity ์ bias ๋ฅผ ์ค์ผ๋ก์จ ํผํ ์ ์๋ค.
Inference
- ๋ชจ๋ Evidence block๋ค์ finetuning์์ encodingํ ํ์๊ฐ ์๋ค. (pre-training์์ ์ด๋ฏธ ํ๊ธฐ ๋๋ฌธ์ด๋ค)
Fixed block encoders already provide a useful representation for retrieval
- ๋ด์ ๊ฐ์ maximum์ ๋น ๋ฅด๊ฒ ์ฐพ๊ธฐ ์ํ index๋ฅผ pre-compile ํ ์ ์๋ค
- Inference๋ pre-compiled index๋ฅผ ์ด์ฉํ beam search ๋ฐฉ์ ์ฌ์ฉํ๋ค
- Tok-k๊ฐ์ evidence block ๊ฒ์ ํ reader score๋ง ๊ณ์ฐ(๋
ผ๋ฌธ์์ k = 5)
Learning
1. Answer derivation์ ๋ํ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
q : question / b : index of an evidence block
s : span of text within block b / Top(k) : S_retr ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฝ์ k ๊ฐ์ ๊ฒ์๋ evidence block ์ ์๋ฏธํ๋ค.
2. Gold answer a๊ฐ ์ฃผ์ด์ง๋ฉด, beam search๋ฅผ ํตํด ๋ชจ๋ ์ฌ๋ฐ๋ฅธ derivations ์ ์ฐพ๊ณ marginal log-likelihood ๋ก ์ต์ ํ ํ๋ค.
- a=TEXT(s) ๋ผ๋ ๊ฒ์ Answer a ๊ฐ Span s ์ ํฌํจ๋์ด ์๋ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธํ๋ค.
- Top k ๋ด์ ์๋ ๋ฌธ์์ span ์์ a ๊ฐ ๋ค์ด์๋ ๊ฑด ๋งค์ฐ ์ ์ ๊ฒ ์ด๋ฏ๋ก Early Update ์ด๋ผ๋ ๋ฐฉ์์ ์ ์ํ๋ค.
3. Early Learning : Top (k) ๊ฐ ์๋ Top (c), ์ฆ ์ข ๋ ํฌ๊ด์ ์ผ๋ก evidence block ๋ฅผ ๊ณจ๋ผ์ ๊ณ์ฐ์ ์์ด์ ์ด์ ์ด ์๋ค. (c= 5000)
4. Final Loss๋ ๋ ๋ค ์
๋ฐ์ดํธํ๋ค.
๋ง์ฝ ์ ๋ต a ์ ๋งค์นญ ๋๋๊ฒ ์๋ค๋ฉด ๊ทธ ์์๋ ์ฌ์ฉํ์ง ์๋๋ค.
๊ฑฐ์ ๋ชจ๋ ์์ ๊ฐ Random initialization ๋ก ํ๊ธฐ๋ ๊ฒ์ผ๋ก ์์๋์ง๋ง ICT pre-train ๋๋ฌธ์ ์์์ 10% ๋ณด๋ค ์ ๊ฒ ์์๋ฅผ ์ญ์ ํ๋ค.
Contribution
IR ์์คํ
์ ์ฌ์ฉํ์ง ์๊ณ , question-answer ์๋ง ์ฌ์ฉํด์ end-to-end ๋ก Retriever ์ Reader ๋ฅผ ๊ณต๋ ํ์ตํ๋ ์ฒซ๋ฒ์งธ ODQA ์์คํ
์ด๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ
Dataset
- Natural Question
- open version์ dataset. ์งง์ answer๋ฅผ ๊ฐ์ง question์ ์ฌ์ฉํ๊ณ , ์ฃผ์ด์ง evidence document๋ ์ ๊ฑฐ.
- ๋ง์ token์ ๊ฐ์ง answer์์ ์ญ์ 5๊ฐ์ token๋ณด๋ค ๋ ๋ง์ด ์ญ์ ํจ. ์๋๋ฉด ๊ธด ํ ํฐ์ answer๋ extractive snippet๊ณผ ๋น์ทํ๊ธฐ ๋๋ฌธ.
- WebQuestions
- Google Suggest API์ ์ํ question์ ํฌํจํ๊ณ ์์
- annotated answer(string type์ representation๋ง ์ทจ๊ธํจ)
- CuratedTrec
- TREC QA data์ question-answer pair๋ก ์ด๋ฃจ์ด์ง corpus
- question์ MSNSearch๋ AskJeeves logs ๊ฐ์ real queries
- TriviaQA
- trivia QA pair(from web)
- unfiltered set ํ์ฉ, supervised evidence๋ ๋ฒ๋ฆผ
- SQuAd
- ODQA ๋ณด๋ค๋ reading comprehension์ ๋ ์ ํฉํ dataset
- Wikipedia ๋ฌธ๋จ์์ ์ ํ๋ answer spans ์ annotator๋ค์ ์ํด ์ฐ์ฌ์ง question
- dev set ์ด ์ฃผ์ด์ง์ง ์์ dataset์์๋ training set์ 10%๋ฅผ ๋๋ค์ถ์ถ
- test set์ด hidden๋ ๊ฒฝ์ฐ(dev set๋ง ์๊ณ test set์ด ์์ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธํ๋ ๊ฒ ๊ฐ์) ๋ง์ฐฌ๊ฐ์ง๋ก training set ์ 10%๋ฅผ dev set์ผ๋ก ์ฐ๊ณ dev set์ test set์ผ๋ก ์ฌ์ฉ
Dataset Biases
- ๋ค์ํ QA pair๋ฅผ ํ๊ฐํ๋ ๊ฒ์ ์ค์
- ๋ชจ๋ ์กด์ฌํ๋ dataset๋ค์ด ๋ด๋ถ์ bias๋ค์ ๊ฐ์ง๊ณ ์์ ์ ์๊ธฐ ๋๋ฌธ
- Natural Questions, WebQuestions, CuratedTrec
- ์ง๋ฌธ์๋ค์ด ์ ๋ต์ ๋ชจ๋ฅธ ์ฑ๋ก ์ง๋ฌธํ ๊ฒ๋ค์
- ์ง์ง ์ ๋ณด๋ฅผ ์ฐพ๋ ์ง๋ฌธ
- ๊ทธ๋์ moderate bias(์ค๊ฐ์ ๋์ bias)๊ฐ ์๋ค๊ณ ๋ณผ ์ ์์
- TriviaQA, SQuAD
- ์ ๋ณด๊ฐ ํ์ํด์ ํ ์ง๋ฌธ๋ค์ด ์๋
Implementation Details
Evidence corpus
- English Wikipedia snapshot(Dec, 20, 2018)
- BERT tokenizer์ ๊ธฐ๋ฐํ์ฌ ์ต๋ 288 wordpieces๋ก ์๋ฆ
- 13 million evidence block ์ด์
Hyperparameters
- 12 trnasformer layers(hidden size 768)
- 128 dimensions
- BERT ์ ๋์ผํ optimizer์ฌ์ฉ
- ICT๋ก retriever๋ฅผ pre-training ํ ๋
- lr: 10^{-4}
- batch size 4096
- 100k steps
- fine-tunning ์์
- lr: 10^{-5}
- batch size 1
- larger datset(nq, TQA, SQuAd)์๋ 2 epoch์ ๋๋ ธ์ง๋ง smaller dataset(WebQuestions, CuratedTrec)์์๋ 20 epoch ๋๋ฆผ
๐ฌ Batch size๊ฐ ๋งค์ฐ ํฌ๋ค
batch size๊ฐ ์์ผ๋ฉด ์๋๋ค๋ ์ง์ ์ ๋ฐ๊ธฐ๋ ํ๋ค.
ORAQ๊ฐ constrastive learning์ผ๋ก ์ด๋ป๊ฒ ์ด์ด์ง๋ ์ง (negative ๋ฃ๋ ๋ฐฉ๋ฒ ๋ฑ)๋ฅผ ์ดํด๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
Baseline
- ๋ค๋ฅธ retrieval methods ์ ๋น๊ตํด๋ณด์. S_{retr}(b, q) retrieval scoreํ์ฉ
BM25
- SOTA unsupervised retrieval method
- IR task ์ evidence retrieval for QA ๋ ๋ค์ ํผํผํ method์ด๊ธฐ์ ๋น๊ต๊ตฐ์ผ๋ก ์ฌ์ฉํจ
- BM25๊ฐ ํ์ต ์์๊ฐ ์๋๊ธฐ ๋๋ฌธ์(not trainable) fine-tuning ํ๋ ๋์์ retrieved evidence๋ ๊ณ ์ ๋์ด ์๋ค.
- final score = BM25 ์ reader score์ ๊ฐ์คํฉ
Language Models
- ๋ ๋ค๋ฅธ ๋น๊ต๊ตฐ์ผ๋ก unsupervised neural retrieval์ traditional IR์ ๋ฐ์ด๋๊ธฐ ์ด๋ ต๊ธฐ๋ก ์ ๋ช
- ๊ทธ๋์ ๋น๊ต baseline์ผ๋ก LM์ unsupervised pooled retresentation์ ์คํ
- ๋ ๊ฐ์ 128 dim representation(๋๋ฆฌ ์ฌ์ฉ๋จ)
- NNLM(๋ฌธ๋งฅ๊ณผ ๋ ๋ฆฝ์ ์ธ embeddings)
- ELMo(small, ๋ฌธ๋งฅ๊ณผ ๊ด๋ จ๋ ์๋ฐฉํฅ์ LSTM)
- ๋ ๊ฐ์ 128 dim representation(๋๋ฆฌ ์ฌ์ฉ๋จ)
๊ฒฐ๊ณผ
- BM25๋ powerfulํ retrieval system์ด๋ค
- ORQA๋ ์ง์ง ์ ๋ณด๋ฅผ ์ฐพ๊ณ ์ ํ๋ datasets(Natural Questions, WebQuestions, CuratedTrec)์์ BM25๋ฅผ ๋ฅ๊ฐํ๋ค.
- ๊ทธ๋ฌ๋ question asker๊ฐ ์ด๋ฏธ ์ ๋ต์ ์๊ณ ์๋ ๋ฐ์ดํฐ์ ์ธ SQuAD ์ TriviaQA์ ๊ฒฝ์ฐ retrival problem ์ traditinal IR๊ณผ ๋น์ทํ๋ค
- 128์ฐจ์์ผ๋ก ์์ถ๋ ๋ฒกํฐ๋ evidence์ ๋ชจ๋ ๋จ์ด๋ค์ ์ ํํ๊ฒ ํํํ๋ BM25๋ณด๋ค ์ฑ๋ฅ์ด ๋์๋ค.
- SQuAD dataset์ Dev data์ Test data ์ ์ ์ฐจ์ด๊ฐ ํฌ๋ค. ์ด๋ 536๊ฐ์ ์ ์ ์ง๋ฌธ์์ 10๋ง๊ฐ์ ๋ง์ ์ง๋ฌธ์ ๋ฝ์๋๊ธฐ ๋๋ฌธ์ด๋ค (data bias)
=> ์ข์ retrieval target(์ ์ ํ๋ฝ์ด ํฌ์ง ์์)์ ์ํด์๋
1) training example 2) IID assumption์ ์๋ฐํ๋์ง 3) ํ์ต๋ retrieval๊ณผ ์ ํฉํ๊ฐ ๋ฑ์ ์ ๊ฒฝ์จ์ผํ๊ณ ์ด๋ฌํ ์ด์ ์์ ์์ผ๋ก์ ODQA ๋ชจ๋ธ๋ค์ SQuAD dataset์ ์ฌ์ฉํ์ง ์๊ธฐ๋ฅผ ์ ์ํ๋ค.
๋ถ์
Masking Rate in the ICT
ICT ์ฌ์ ํ์ต์ masking rate๋ฅผ 1๋ก ๋๋ฉด (๋ชจ๋ example์ ๋ง์คํน) ์ ํ ํ์ต์ด ๋์ง ์๋๋ค.
์์ masking์ ์ํ ๊ฒฝ์ฐ, memoryํ๋ ๊ฒ์๋ ๋ฌธ์ ๊ฐ ์์ง๋ง QA์ ์ผ๋ฐํํ ์ ์๋ค.
90%๋ง maskingํ ๊ฒฝ์ฐ, word-matching์ผ๋ก์์ ์ญํ ์ ํ ์ ์๋ค.
๋ฐฐ์ด ์
- ODQA๋ retriever๊ณผ reader์ ๋ชจ๋ end-to-end๋ก IR system ์์ด QA pair๋ก๋ง ํ์ตํ ์ต์ด์ ๋ฐฉ๋ฒ์ด๋ค.
- Inverse Cloze Task(ICT)๋ฅผ ์ฌ์ฉํ๋ฉด retriever์ pretrainํ๋ ๊ฒ ๊ฐ๋ฅํ๋ค.