논문리뷰 | GPT-1 | 1일차
Improving Language Understanding by Generative Pre-Training
요약
- 자연어 이해의 용도
- Textual entailment : 텍스트 함의
- 질문 답변,
- semantic similarity assessment : 의미적 유사성 평가
- 문서 분류 등
레이블이 지정되지 않은 대량의 텍스트 데이터(거대한 텍스트 코퍼스, 영어: corpus, 복수형: corpora, 말뭉치)는 풍부하지만 특정 작업을 학습하기 위해 레이블이 지정된 데이터는 드물기 때문에 discriminatively하게(차별적으로) 훈련된 모델이 적절히 수행되기 어렵습니다.
우리는 레이블이 지정되지 않은 텍스트의 다양한 코퍼스에 대한 언어 모델의 GPT와 각 특정 작업에 대한 차별적 미세 조정(fine-tuning)을 통해 이러한 작업에 대한 큰 이득을 실현할 수 있음을 보여줍니다. 이전 접근 방식과 달리 모델 아키텍처에 대한 변경을 최소화하면서 효과적인 전송을 달성하기 위해 미세 조정(fine-tuning) 중에 작업 인식 입력 변환(task-aware input transformations)을 사용합니다.
우리는 자연어 이해를 위한 광범위한 벤치마크에 대한 접근 방식의 효율성을 보여줍니다. 우리의 일반적인 작업에 구애받지 않는 모델(general task-agnostic model)은 각 작업에 대해 특별히 제작된 아키텍처를 사용하는 차별적으로 훈련된 모델보다 성능이 뛰어나 연구된 12개 작업 중 9개 작업에서 최신 기술을 크게 향상시킵니다. 예를 들어 상식 추론(commonsense reasoning)(Stories Cloze Test)에서 8.9%, 질문 답변(RACE)에서 5.7%, 텍스트 함의(MultiNLI)에서 1.5%의 절대적인 향상을 달성했습니다..
소개
원시 텍스트(raw text)에서 효과적으로 학습하는 능력은 NLP(자연어 처리)에서 지도 학습에 대한 의존도를 줄이는 것이 중요합니다. 대부분의 딥 러닝 방법은 수동으로(manually) 레이블이 지정된 상당한 양의 데이터를 필요로 하므로 주석이 달린 리소스가 부족한 많은 영역에서 적용 가능성(applicability)이 제한됩니다[61]. 이러한 상황에서 레이블이 지정되지 않은 데이터의 언어 정보를 활용할 수 있는 모델은 많은 주석을 수집하는 것에 대한 좋은 대안을 제공합니다. 또한 상당한 지도학습이 가능한 경우에도 감독되지 않은 방식(unsupervised fashion)으로 좋은 표현을 학습하면 상당한 성능 향상을 제공할 수 있습니다.
지금까지 이에 대한 가장 강력한 증거(compelling evidence)는 사전 훈련된 단어 임베딩을 광범위하게 사용하여 다양한 NLP 작업에 대한 성능을 향상시킨 것입니다. 그러나 레이블이 지정되지 않은 텍스트에서 단어 수준 이상의 정보를 활용하는 것(Leveraging)은 두 가지 주요 이유로 어렵습니다. 첫째, 어떤 유형의 최적화 목표가 전송에 유용한 텍스트 표현을 학습하는 데 가장 효과적인지 명확하지 않습니다. 최근 연구에서는 언어 모델링, 기계 번역, 담화 응집성(discourse coherence)과 같은 다양한 목표에 대해 살펴보았고, 각 방법은 서로 다른 작업에서 다른 방법보다 우수한 성능을 보였습니다. 둘째, 이러한 학습된 표현을 대상 작업으로 전송하는 가장 효과적인 방법에 대한 합의(consensus)가 없습니다. 기존 기술은 복잡한(intricate) 학습 계획(learning schemes)을 사용하고 보조(auxiliary) 학습 목표를 추가[50]하고 모델 아키텍처에 대한 작업별 변경(task-specific changes)의 조합을 포함합니다. 이러한 불확실성으로 인해 언어 처리를 위한 효과적인 반 지도(semi-supervised) 학습 접근 방식을 개발하기가 어렵습니다.
- 1 페이지 끝 -