티스토리 뷰
⑴ GPT(Generative Pre-trained Transformer)란
GPT(Generative Pre-trained Transformer)는 OpenAI가 대량의 데이터로 다양한 작업을 수행할 수 있도록 사전 학습한 Transformer 모델이다. BERT와 마찬가지로, 특정 작업을 잘 수행할 수 있도록 사전 학습된 모델을 Fine-tuning 할 수 있다.
GPT는 일방향으로 나아 가면서 학습 및 예측을 하기 때문에 문장을 생성해 나가는 데 강점을 지닌다. 이전까지의 단어들을 토대로 파악한 문맥에 맞게 단어를 생성하고 나면, 이 생성된 단어 역시 문맥 이해에 반영되고, 업데이트 된 문맥 정보를 기반으로 또 다음 단어를 생성하는 과정이 반복적으로 일어난다. 이 과정은 생성되는 문장이 일관된 문맥을 유지할 수 있도록 한다.
⑵ GPT(Generative Pre-trained Transformer)와 BERT
BERT | GPT | |
특징 |
|
|
주요 활용처 |
|
|
⑶ GPT(Generative Pre-trained Transformer) 시리즈
OpenAI에서 개발한 GPT는 현재 총 5개(GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4) 버전이 존재한다. 모두 기본적으로 같은 구조를 가지나, 버전이 올라갈수록 파라미터(parameter, 매개변수)의 개수가 증가한다. 이때 파라미터란, Transformer를 구성하는 여러 겹의 신경망 구조를 거치며 입력된 정보에 대한 학습이 이루어지는 동안, 입력값들에 주어지는 가중치(weight) 및 편향(bias)를 가리키며, 인간의 뇌로 따지면 신경망에서 뉴런 간 연결을 시켜주는 시냅스로 이해할 수 있다. 이 파라미터들은 정답에 가까운 문장을 생성해내는 방향으로 조정됩니다. 파라미터 개수가 증가할수록 더 정교한 학습이 이루어지며, 길이가 긴 문장을 이해하거나 복잡한 작업을 처리할 수 있는 능력치가 올라 간다.
GPT Series | 출시 년월 | 파라미터 수 | 주요 특징 |
GPT-1 | ’18.6월 | 40억개 |
|
GPT-2 | ’19.2월 | 11억개 |
|
GPT-3 | ’20.6월 | 175억 개 |
|
GPT-3.5 (ChatGPT) |
’22.11월 | 175억 개 |
|
GPT-4 | ’23.3월 | ? |
|
⑷ ChatGPT의 등장
GPT의 성능이 버전을 거듭할수록 향상되어 GPT-3부터는 인간에 가까운 언어 구사 능력을 보여준다는 평가를 받기 시작했다.
GPT-3.5에서는 인간 피드백 기반 강화 학습(Reinforcement Learning with Human Feedback, 이하 RLHF)을 적용하였다. 인간이 작성한 질문과 답변으로 학습시킨 다음, 모델이 주어진 질문에 대해 답변을 여러 개 생성하면 인간이 순위를 매겨 추가 학습을 시킴으로써, 사용자의 의도와 니즈에 부합하는 답변을 생성할 수 있도록 유도한 것이다.
즉, GPT를 학습시키는 도중에 인간이 개입하여 정답일 경우 보상을 주고 오답일 경우 벌을 주는 방식으로 가이드를 해줌으로써, 최종적으로 생성되는 답변의 성능을 높였다. 이 GPT-3.5를 기반으로 대화형으로 개발된 것이 ChatGPT이다
'기술사 Sketch > IT Tends' 카테고리의 다른 글
[정보관리 기술사] 웹페이지 구성 및 Rendering기법 (56) | 2024.04.01 |
---|---|
[정보관리 기술사] 웹에서 3D 구현을 위한 BabyIon.js (64) | 2024.02.20 |
[정보관리 기술사] 생산성을 높이는 기술로서의 Environment as a Service(EaaS) (57) | 2024.02.15 |
[정보관리 기술사] 가상현실과 증강현실을 위한 OpenXR (75) | 2024.01.18 |
[정보관리 기술사] 해석, 설명할 수 있는 AI인 XAI(eXplainable AI) (50) | 2023.12.21 |