[NLP] 15. 프롬프트 및 순화 학습
1. 프롬프트 학습
prompt learning(=few-shot learning, in-context learning)
- 많은 재학습 없이 언어 모델을 다른 일에 사용할 수 있도록 하는 것
- 프롬프트 구성을 통해 도메인 지식을 전달하여 다른 작업에 적응할 수 있도록 함
- gradient update 없음
기존 fine-tuning
- 기존 모델을 라벨 없는 데이터(raw data)로 pretraining 후
- labeled 데이터로 fine tune.
- gradient update가 있음.
few-shot learning
zero-shot: 예시가 없음
one-shot: 하나의 예시 제시
few-shot: 몇몇 예시 제시.
Prompt Engineering
프롬프트-언어 모델의 전제 조건
어떻게 하는냐에 따라 다른 답변.
CoT(Chain of Thought)
단계적 설명 프롬프트를 사용하여 추론 성능 향상
답변시 추론 과정을 설명하게 했을 때 정답 제시율 향상
+탈옥
2. 거대 언어모델의 문제점
데이터의 부족.
- 학습 데이터의 편향
- 데이터 독성 문제
- hallucination
- 자의식 문제
활용 팁
3. 거대 언어 모델의 순화(alignment)
전처리/후처리: 문제의 소지가 있는 질문을 사전에 조사하여 답변 거부.
순화 정밀 조정(ALignment tuning)
: 출력이 편향되거나 독성이 있고, 기준에 맞지 않을 때에 이를 수정하는 작업.
사람의 판단에 따라 기준이 다를 수 있으나 '일반적으로 인정하는 방향'으로 학습.
ex. RLHF(Reinforcement Learning with Human Feedback)
RLHF
0- 대용량 일반 데이터로 GPT 모델 학습.
1- 질문에 대한 바람스러운 답변으로 tuning(human feedback으로 답변 생성)
2- 조정된 언어모델로 여러 답변을 출력하여 선호도 정렬. 그것을 InstructGPT(RM)가 학습
3- 새로운 대량 프롬프트에 대한 답변을 생성하고 이를 RM이 평가. 결과는 언어모델에 반영(tuning)
4. 대화형 거대 언어 모델의 현재와 사회 반응
chatGPT
능력이 참 좋아요.
다양한 언어에도 좋음.(4 기준으로 60%이상)
확장: 언어 생성/이미지 생성/코드 생성/음악 작곡