observe_db

[NLP] 15. 프롬프트 및 순화 학습 본문

학교 공부/자연언어처리(4-2)

[NLP] 15. 프롬프트 및 순화 학습

쩡윤 2024. 12. 4. 13:05

1. 프롬프트 학습

 

prompt learning(=few-shot learning, in-context learning)

  • 많은 재학습 없이 언어 모델을 다른 일에 사용할 수 있도록 하는 것
  • 프롬프트 구성을 통해 도메인 지식을 전달하여 다른 작업에 적응할 수 있도록 함
  • gradient update 없음

기존 fine-tuning

  • 기존 모델을 라벨 없는 데이터(raw data)로 pretraining 후
  • labeled 데이터로 fine tune.
  • gradient update가 있음.

 

few-shot learning

zero-shot: 예시가 없음

one-shot: 하나의 예시 제시

few-shot: 몇몇 예시 제시.

 

Prompt Engineering

프롬프트-언어 모델의 전제 조건

어떻게 하는냐에 따라 다른 답변.

 

CoT(Chain of Thought)

단계적 설명 프롬프트를 사용하여 추론 성능 향상

답변시 추론 과정을 설명하게 했을 때 정답 제시율 향상

 

+탈옥

 

2. 거대 언어모델의 문제점

데이터의 부족.

  • 학습 데이터의 편향
  • 데이터 독성 문제
  • hallucination
  • 자의식 문제

활용 팁

 

 

3. 거대 언어 모델의 순화(alignment)

전처리/후처리: 문제의 소지가 있는 질문을 사전에 조사하여 답변 거부.

 

순화 정밀 조정(ALignment tuning)

: 출력이 편향되거나 독성이 있고, 기준에 맞지 않을 때에 이를 수정하는 작업.

사람의 판단에 따라 기준이 다를 수 있으나 '일반적으로 인정하는 방향'으로 학습.

ex. RLHF(Reinforcement Learning with Human Feedback)

 

RLHF

0- 대용량 일반 데이터로 GPT 모델 학습.

1- 질문에 대한 바람스러운 답변으로 tuning(human feedback으로 답변 생성)

2- 조정된 언어모델로 여러 답변을 출력하여 선호도 정렬. 그것을 InstructGPT(RM)가 학습

3- 새로운 대량 프롬프트에 대한 답변을 생성하고 이를 RM이 평가. 결과는 언어모델에 반영(tuning)

 

4. 대화형 거대 언어 모델의 현재와 사회 반응

chatGPT

능력이 참 좋아요.

다양한 언어에도 좋음.(4 기준으로 60%이상)

 

확장: 언어 생성/이미지 생성/코드 생성/음악 작곡

'학교 공부 > 자연언어처리(4-2)' 카테고리의 다른 글

[NLP] 14. 거대 언어 모델(LLM)  (0) 2024.11.28
[NLP] 12. n-gram 언어 모델  (0) 2024.11.15
[NLP] 11. 단어 벡터  (1) 2024.11.08
[NLP] 10. 기계번역  (0) 2024.11.08
[NLP] 9. 정보 추출  (0) 2024.11.01
Comments