[Open-domain question answering(ODQA)] 5. Reader Experiment - 외부데이터 추가, TAPT
1. Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (DAPT, TAPT) Gururangan, S., Marasović, A., Swayamdipta, S., Lo, K., Beltagy, I., Downey, D., & Smith, N. A. (2020). Don't stop pretraining: adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964. https://arxiv.org/abs/2004.10964 Don't Stop Pretraining: Adapt Language Models to Domains and Tasks Language m..
[Open-domain question answering(ODQA)] 2. EDA, Pytorch Lightning Refactoring
1. EDA Reader 데이터 - question, answer, context 데이터 개수 Train : 3952 Valid : 240 Test : 600 데이터 형태 Train & Validation dataset Test dataset 데이터 길이 Train & Valid context 평균 900~, 최소 512, 최대 2060 question 평균 30, 최소 8, 최대 78 answer 평균 6, 최소 1, 최대 83 Test question 평균 30, 최소 8, 최대 62 Retrieval 데이터 - Document corpus 데이터 개수 60613개 데이터 형태 평균 584, 최소 46, 최대 46099 2. Pytorch Lightning Refactoring Base Line co..