일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 벡터
- 스케줄러
- 컴파일
- React
- 프로세스
- 언어모델
- 정보검색
- DB
- 웹소프트웨어
- 객체지향설계
- 애자일
- 랩실일기
- 가상메모리
- 파싱테이블
- 오픈소스웹소프트웨어
- 소프트웨어공학
- Linear Algebra
- OS
- css
- C언어
- 데이터분석
- 컴파일러
- 데이터베이스
- NLP
- Agile
- 파싱
- 836
- 클래스
- 자연어처리
- 운영체제
- Today
- Total
observe_db
[NLP] 15. 프롬프트 및 순화 학습 본문
1. 프롬프트 학습
prompt learning(=few-shot learning, in-context learning)
- 많은 재학습 없이 언어 모델을 다른 일에 사용할 수 있도록 하는 것
- 프롬프트 구성을 통해 도메인 지식을 전달하여 다른 작업에 적응할 수 있도록 함
- gradient update 없음
기존 fine-tuning
- 기존 모델을 라벨 없는 데이터(raw data)로 pretraining 후
- labeled 데이터로 fine tune.
- gradient update가 있음.
few-shot learning
zero-shot: 예시가 없음
one-shot: 하나의 예시 제시
few-shot: 몇몇 예시 제시.
Prompt Engineering
프롬프트-언어 모델의 전제 조건
어떻게 하는냐에 따라 다른 답변.
CoT(Chain of Thought)
단계적 설명 프롬프트를 사용하여 추론 성능 향상
답변시 추론 과정을 설명하게 했을 때 정답 제시율 향상
+탈옥
2. 거대 언어모델의 문제점
데이터의 부족.
- 학습 데이터의 편향
- 데이터 독성 문제
- hallucination
- 자의식 문제
활용 팁
3. 거대 언어 모델의 순화(alignment)
전처리/후처리: 문제의 소지가 있는 질문을 사전에 조사하여 답변 거부.
순화 정밀 조정(ALignment tuning)
: 출력이 편향되거나 독성이 있고, 기준에 맞지 않을 때에 이를 수정하는 작업.
사람의 판단에 따라 기준이 다를 수 있으나 '일반적으로 인정하는 방향'으로 학습.
ex. RLHF(Reinforcement Learning with Human Feedback)
RLHF
0- 대용량 일반 데이터로 GPT 모델 학습.
1- 질문에 대한 바람스러운 답변으로 tuning(human feedback으로 답변 생성)
2- 조정된 언어모델로 여러 답변을 출력하여 선호도 정렬. 그것을 InstructGPT(RM)가 학습
3- 새로운 대량 프롬프트에 대한 답변을 생성하고 이를 RM이 평가. 결과는 언어모델에 반영(tuning)
4. 대화형 거대 언어 모델의 현재와 사회 반응
chatGPT
능력이 참 좋아요.
다양한 언어에도 좋음.(4 기준으로 60%이상)
확장: 언어 생성/이미지 생성/코드 생성/음악 작곡
'학교 공부 > 자연언어처리(4-2)' 카테고리의 다른 글
[NLP] 14. 거대 언어 모델(LLM) (0) | 2024.11.28 |
---|---|
[NLP] 12. n-gram 언어 모델 (0) | 2024.11.15 |
[NLP] 11. 단어 벡터 (1) | 2024.11.08 |
[NLP] 10. 기계번역 (0) | 2024.11.08 |
[NLP] 9. 정보 추출 (0) | 2024.11.01 |