본문 바로가기

Projects

(8)
[Open-domain question answering(ODQA)] 5. Reader Experiment - 외부데이터 추가, TAPT 1. Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (DAPT, TAPT) Gururangan, S., Marasović, A., Swayamdipta, S., Lo, K., Beltagy, I., Downey, D., & Smith, N. A. (2020). Don't stop pretraining: adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964. https://arxiv.org/abs/2004.10964 Don't Stop Pretraining: Adapt Language Models to Domains and Tasks Language m..
[Open-domain question answering(ODQA)] 4. Reader Experiment - Curriculum Learning 1. Curriculum learning for language modeling Campos, D. (2021). Curriculum learning for language modeling. arXiv preprint arXiv:2108.02170. https://arxiv.org/abs/2108.02170 Curriculum learning for language modeling Language Models like ELMo and BERT have provided robust representations of natural language, which serve as the language understanding component for a diverse range of downstream task..
[Open-domain question answering(ODQA)] 3. Retrieval Experiment - ElasticSearch(엘라스틱 서치) 1. Elasticsearch(엘라스틱 서치) : 분산 검색 엔진 전문(full text) 검색 엔진이면서 일종의 NoSQL 데이터베이스 텍스트 외에도 숫자, 날짜, IP 주소, 지리 정보 등 다양한 데이터 타입에 최적화 관계형 데이터베이스에서 제공하는 LIKE 같은 단순 텍스트 매칭 기법을 넘어, 텍스트를 여러 단어로 변형하여 검색할 수 있으며 스코어링 알고리즘을 통한 연관도에 따른 정렬 기능 제공. 대량의 데이터에서 빠르고 정확한 검색이 가능하게 만들어 줌 1.1. ELK 스택 Elasticsearch는 검색을 위해 단독으로 사용되기도 하며, ELK( Elasticsearch / Logstatsh / Kibana )스택으로 사용되기도 함 키바나: 시각화와 엘라스틱서치 관리 도구 로그스태시: 이벤트 수..
[Open-domain question answering(ODQA)] 2. EDA, Pytorch Lightning Refactoring 1. EDA Reader 데이터 - question, answer, context 데이터 개수 Train : 3952 Valid : 240 Test : 600 데이터 형태 Train & Validation dataset Test dataset 데이터 길이 Train & Valid context 평균 900~, 최소 512, 최대 2060 question 평균 30, 최소 8, 최대 78 answer 평균 6, 최소 1, 최대 83 Test question 평균 30, 최소 8, 최대 62 Retrieval 데이터 - Document corpus 데이터 개수 60613개 데이터 형태 평균 584, 최소 46, 최대 46099 2. Pytorch Lightning Refactoring Base Line co..
[Open-domain question answering(ODQA)] 1. 프로젝트 개요 1. 프로젝트 개요 Question Answering은 다양한 종류의 질문에 대해 대답하는 AI를 만드는 연구분야 입니다. 다양한 QA 시스템 중, Open-Domain Question Answering은 주어진 지문이 따로 존재하지 않고 사전에 구축되어 있는 Knowledge resource에서 질문에 대해 대답할 수 있는 문서를 찾는 과정이 추가되기 때문에 더 어려운 문제입니다. 네이버 커넥트재단 부스트캠프에서 개최한 대회에서 진행한 프로젝트입니다. 대회 기간 2022.12.19 ~ 2023.01.05 평가 방법 Exact Match (EM): 모델의 예측과, 실제 답이 정확하게 일치할 때만 점수가 주어집니다. 즉 모든 질문은 0점 아니면 1점으로 처리됩니다. F1 Score: EM과 다르게 부분 점..
NLP 자동차 주제 데이터 제작 프로젝트 1. 프로젝트 개요 위키피디아 원시 말뭉치를 활용하여 관계 추출 태스크에 쓰이는 주석 코퍼스 제작 Relation set의 구성 및 정의, 가이드라인 작성, 파일럿 및 메인 어노테이션, 그리고 간단한 모델 Fine-tuning의 과정을 통해 실제 데이터 제작의 workflow 경험 정밀한 가이드라인 제작의 중요성과 inter-annotator agreement(IAA)의 개념 체득 2022.12.07(수) ~ 2022.12.16(금) 13:00 2. 팀 구성 및 역할 3. 데이터 개요 3.1 데이터 설명 자동차와 관련된 부품(타이어, 브레이크, 엔진 등), 브랜드(기아, 볼보, 아우디 등) 등의 키워드 등을 중심으로 정보를 포함하는 데이터이다. 데이터는 부스트캠프 측으로부터 자동차 주제에서 도출된 키워드..
Relation Extraction(문장 내 개체간 관계 추출) 프로젝트 1. 프로젝트 개요 💡 [NLP] 문장 내 개체간 관계 추출 문장의 단어(Entitiy)에 대한 속성관 관계를 예측하는 인공지능 만들기 문장 속에서 단어간에 관계성을 파악하는 것은 의미나 의도를 해석함에 있어서 많은 도움을 줍니다. 그림의 예시와 같이 요약된 정보를 사용해 QA 시스템 구축과 활용이 가능하며, 이외에도 요약된 언어 정보를 바탕으로 효율적인 시스템 및 서비스 구성이 가능합니다. 관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제입니다. 관계 추출은 지식 그래프 구축을 위한 핵심 구성 요소로, 구조화된 검색, 감정 분석, 질문 답변하기, 요약과 같은 자연어처리 응용 프로그램에서 중요합니다. 비구조적인 자연어 문장에서 구조적인 tri..
Semantic Text Similarity(문장 간 유사도 측정) 프로젝트 1. 프로젝트 개요 Github Link 프로젝트 배경 두 문장의 유사도를 측정하는 AI모델을 설계하였습니다. 네이버 커넥트재단 부스트캠프에서 개최한 문장 간 유사도 측정(Semantic Text Similarity, STS) 대회에서 진행한 프로젝트입니다. 담당 업무 데이터 증강, 모델 실험 프로젝트 진행 과정 - Label 분포가 불균형한 문제가 있어, 두 문장이 동일한 Label은 증가, 다른 label은 감소하는 방식으로 데이터 증강 - BERT계열 모델의 경우 두 문장의 순서에 따라 임베딩이 달라지는 점에 기반하여, 문장의 순서를 바꿔주는 방식 으로 데이터 증강 - 평가지표인 Pearson이 선형이므로 Outlier에 취약한 점에 기반하여, Ensemble 활용 - 최종 Peason 0.9368..