[NLP] 15. 프롬프트 및 순화 학습

Notice

Recent Posts

Recent Comments

Link

Github

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

observe_db

[NLP] 15. 프롬프트 및 순화 학습 본문

학교 공부/자연언어처리(4-2)

[NLP] 15. 프롬프트 및 순화 학습

쩡윤 2024. 12. 4. 13:05

1. 프롬프트 학습

prompt learning(=few-shot learning, in-context learning)

많은 재학습 없이 언어 모델을 다른 일에 사용할 수 있도록 하는 것
프롬프트 구성을 통해 도메인 지식을 전달하여 다른 작업에 적응할 수 있도록 함
gradient update 없음

기존 fine-tuning

기존 모델을 라벨 없는 데이터(raw data)로 pretraining 후
labeled 데이터로 fine tune.
gradient update가 있음.

few-shot learning

zero-shot: 예시가 없음

one-shot: 하나의 예시 제시

few-shot: 몇몇 예시 제시.

Prompt Engineering

프롬프트-언어 모델의 전제 조건

어떻게 하는냐에 따라 다른 답변.

CoT(Chain of Thought)

단계적 설명 프롬프트를 사용하여 추론 성능 향상

답변시 추론 과정을 설명하게 했을 때 정답 제시율 향상

+탈옥

2. 거대 언어모델의 문제점

데이터의 부족.

학습 데이터의 편향
데이터 독성 문제
hallucination
자의식 문제

활용 팁

3. 거대 언어 모델의 순화(alignment)

전처리/후처리: 문제의 소지가 있는 질문을 사전에 조사하여 답변 거부.

순화 정밀 조정(ALignment tuning)

: 출력이 편향되거나 독성이 있고, 기준에 맞지 않을 때에 이를 수정하는 작업.

사람의 판단에 따라 기준이 다를 수 있으나 '일반적으로 인정하는 방향'으로 학습.

ex. RLHF(Reinforcement Learning with Human Feedback)

RLHF

0- 대용량 일반 데이터로 GPT 모델 학습.

1- 질문에 대한 바람스러운 답변으로 tuning(human feedback으로 답변 생성)

2- 조정된 언어모델로 여러 답변을 출력하여 선호도 정렬. 그것을 InstructGPT(RM)가 학습

3- 새로운 대량 프롬프트에 대한 답변을 생성하고 이를 RM이 평가. 결과는 언어모델에 반영(tuning)

4. 대화형 거대 언어 모델의 현재와 사회 반응

chatGPT

능력이 참 좋아요.

다양한 언어에도 좋음.(4 기준으로 60%이상)

확장: 언어 생성/이미지 생성/코드 생성/음악 작곡

'학교 공부 > 자연언어처리(4-2)' 카테고리의 다른 글

[NLP] 14. 거대 언어 모델(LLM) (0)	2024.11.28
[NLP] 12. n-gram 언어 모델 (0)	2024.11.15
[NLP] 11. 단어 벡터 (1)	2024.11.08
[NLP] 10. 기계번역 (0)	2024.11.08
[NLP] 9. 정보 추출 (0)	2024.11.01

'학교 공부/자연언어처리(4-2)' Related Articles

Comments

observe_db

[NLP] 15. 프롬프트 및 순화 학습 본문

[NLP] 15. 프롬프트 및 순화 학습

1. 프롬프트 학습

2. 거대 언어모델의 문제점

'학교 공부 > 자연언어처리(4-2)' 카테고리의 다른 글

티스토리툴바