본문 바로가기

AI/NLP

(13)
[NLP] 룩업 테이블(lookup table)이란? NNLM, 워드 임베딩(word embedding) 룩업 테이블이란? 특정 단어와 맵핑되는 정수를 인덱스로 가지는 테이블로부터 임베딩 벡터 값을 가져오는 것 = 정수를 임베딩 벡터로 맵핑하는 것 피드 포워드 신경망 언어 모델(NNLM) 학습 과정 예시 NNLM이 언어 모델링을 학습하는 과정 예문 : "what will the fat cat sit on" 예를 들어 위와 같은 문장이 있다. 언어 모델은 주어진 단어 시퀀스로부터 다음 단어를 예측. 훈련 과정에서는 'what will the fat cat'이라는 단어 시퀀스가 입력으로 주어지면, 다음 단어 'sit'을 예측하는 방식으로 훈련. 훈련 코퍼스에 7개의 단어만 존재한다고 가정했을 때 다음과 같이 원-핫 인코딩 할 수 있음. what = [1, 0, 0, 0, 0, 0, 0] will = [0, 1,..
[논문리뷰] LoRA: Low-Rank Adaptation of Large Language Models // LoRA 이론 https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language Models Abstract - LLM이 계속 커지면서 Full fine-tuning으로 모델을 학습하는 것이 less feasible 해지고 있다 - GPT-3 같은 모델을 Full fine-tuning 하는 것은 엄두도 못낼 정도로 비쌈 - LoRA는 LLM의 weight는 고정하고 추가적인 trainable 파라미터를 각 트랜스포머 레이어에 inject함 - LoRA는 학습 파라미터를 10,000배 줄여줌 - Full finetuning에 비견되거나 더 나은 성능 - Adapter류의 PEFT 기법과 inference 속도가 느려지지 않음 (LoRA는 병렬로 연산..
[논문리뷰] GPT Understands, Too // P-tuning 이론 https://arxiv.org/abs/2103.10385 GPT Understands, Too Abstract - 전통적인 GPT finetuning으로는 NLU task에서 낮은 성능을 보임 - P-tuning을 이용하여 GPT를 튜닝하면, NLU task에서 비슷한 사이즈의 BERT에 비견되는 성능을 보임 - 지식 탐색 벤치마크 LAMA에서 20% 성능 향상 - SuperGlue 벤치마크에서 비슷한 사이즈의 BERT에 비견되거나 outperform한 결과를 냄 - P-tuning은 BERT의 fewshot setting, supervised setting에서도 성능을 향상시킴 - few-shot SuperGlue benchmark에서 Sota 성능을 냄 - large scale로 갈 수록 BERT보..
[논문리뷰] Prefix-tuning: Optimizing Continuous Prompts for Generation // Prefix-tuning 이론 https://arxiv.org/abs/2101.00190 Prefix-Tuning: Optimizing Continuous Prompts for Generation Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix- arxiv.org Prefix-Tuning: Optimizing Continuous P..
InstructGPT란? ChatGPT와 InstructGPT 차이점 ChatGPT의 전신 : InstructGPT - Training language models to follow instructions with human feedback, Open AI 2022.03 - GPT3 논문 공개 20년 5월, InstructGPT 논문 공개 22년 3월 - 언어 모델을 더 크게 만든다고 본질적으로 사용자의 의도를 잘 따르는 것은 아님. ex) untruthful, toxic 등 사용자에게 도움이 되지 않는 출력을 생성할 수 있음 - 이 논문에서는 사람의 피드백을 통해 미세 조정하여 다양한 작업에 대한 사용자 의도에 맞게 언어 모델을 정렬하는 방법을 보여줌 InstructGPT - OpenAI API를 통해 제출된 프롬프트와 labeler-written prompts로 sup..
[논문리뷰] ANCE: Approximate Nearest Neighbor Negative Con- Trastive Learning For Dense Text Retrieval 💡목차ABSTRACT1. Introduction2. PRELIMINARIES Task DefinitionBERT-Siamese ModelLearning with Negative Sampling3. ANALYSES ON THE CONVERGENCE OF DENSE RETRIEVAL TRAINING3.1 ORACLE NEGATIVE SAMPLING ACCORDING TO PER-INSTANCE GRADIENT-NORM3.2 UNINFORMATIVE IN-BATCH NEGATIVES AND THEIR DIMINISHING GRADIENTSDiminishing Gradients of Uninformative NegativesInefficacy of Local In-Batch Negatives4. APPROXIM..
Passage retrieval(문서 검색) - Sparse Embedding, Dense Embedding, Scaling up with FAISS 1. Passage Retrieval(문서 검색) 질문(query)에 맞는 문서(passage)를 찾는 것 Passage Retrieval with MRC Open-domain Question Answering: 대규모의 문서 중에서 질문에 대한 답을 찾기 Passage Retrieval과 MRC를 이어서 2-Stage로 만들 수 있음 Query와 Passage를 임베딩한 뒤 유사도로 랭킹을 매기고, 유사도가 가장 높은 Passage를 선택함 1. 1. Passage(구절) Embedding 구절(Passage)을 벡터로 변환하는 것 Passage Embedding Space Passage Embedding의 벡터 공간. 벡터화된 Passage를 이용하여 Passage 간 유사도 등을 알고리즘으로 계산할..
MRC(기계독해, Machine Reading Comprehension), Extraction-based MRC, Generation-based MRC 1. MRC(기계독해, Machine reading comprehension)란? 주어진 지문 (Context)를 이해하고 주어진 질의 (Query/Question)의 답변을 추론하는 문제 1.1. MRC 종류 1) Extractive Answer Datasets 질의(question)에 대한 답이 항상 주어진 지문(context)의 segment (or span) 으로 존재 Cloze Tests Span Extraction 2) Descriptive/Narrative Answer Datasets 답이 지문 내에서 추출한 span이 아닌, 질의를 보고 생성된 sentence 형태 MS MARCO 3) Multiple-choice Datasets 질의에 대한 답을 여러 개의 answer candidates..