일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 데이터분석
- Agile
- C언어
- 객체지향설계
- 운영체제
- 정보검색
- 컴파일
- DB
- 벡터
- 프로세스
- 클래스
- 언어모델
- 랩실일기
- 소프트웨어공학
- 836
- 컴파일러
- 가상메모리
- Linear Algebra
- React
- 오픈소스웹소프트웨어
- 데이터베이스
- css
- 스케줄러
- 자연어처리
- 파싱테이블
- OS
- 애자일
- 웹소프트웨어
- NLP
- 파싱
- Today
- Total
목록학교 공부 (95)
observe_db
1. 프롬프트 학습 prompt learning(=few-shot learning, in-context learning)많은 재학습 없이 언어 모델을 다른 일에 사용할 수 있도록 하는 것프롬프트 구성을 통해 도메인 지식을 전달하여 다른 작업에 적응할 수 있도록 함gradient update 없음기존 fine-tuning기존 모델을 라벨 없는 데이터(raw data)로 pretraining 후labeled 데이터로 fine tune.gradient update가 있음. few-shot learningzero-shot: 예시가 없음one-shot: 하나의 예시 제시few-shot: 몇몇 예시 제시. Prompt Engineering프롬프트-언어 모델의 전제 조건어떻게 하는냐에 따라 다른 답변. CoT(Cha..
1. 사전 학습과 토큰화거대 언어 모델LSTM이나 Transformer등을 쌓아 언어 모델의 크기를 확장한 것(수백 M~T)일반적인 NLP TASK 성능 대폭 향상QnA 뿐 아니라 대화형 가능학습데이터 부족 문제: 학습량 및 미등록어 처리Pre-training: 학습 데이터 부족을 해결하기 위한 기초적 학습.대규모 원시 텍스트(raw text)를 이용하여 학습(self-supervised learning)모델이 일반적 언어를 처리할 수 있도록 초기화모델의 파라미터 초기값은 성능에 매우 중요사전 학습 후 fine tuning으로 성능 향상예시다음 단어 예측/빈칸 예측/단어 순서/바뀐 단어 맞추기/다음 문장 예측/ 문장 순서 예측단어 토큰화: 단어를 통계에 기반한 sub-word(토큰)으로 분리하여 미등록어..
원본 chap. 13~15 X는 doc.들의 공간C는 class의 집합D는 라벨된 doc.들의 학습 set 분류기 γ : X->Cex. 감성 분석 방식1) 수작업2) 규칙 기반3) 통계/확률적 Naive Bayes c_map = argmax P(c|d)이를 베이즈 정리를 이용하여 풀면c_map = argmax P(d|c)*P(c) 또한 이 수식을 따른다.n_d는 document의 길이(=token의 수)t_k는 문서속의 토큰. Maximum a posteriori(MAP) class 그리고 값들이 확률값이므로 [0,1]의 범위를 가진다.=>곱하면 수가 계속 작아져 underflow 발생 가능=>log 사용. 여기서 Nc는 class c 내의 doc의 수. N은 전체 doc 수Tct는 class c의 학..
11/19원본 19, 21장 Ads(Advertise)Goto(1996)클릭하면 그 댓가 지불.돈을 많이 낸 페이지를 위로.문제는 성능(관련성) Two ranked lists왼쪽엔 검색결과, 오른쪽엔 광고. 광고도 rank하면?-클릭 수가 많은 순서로?-아니면 돈을 많이 낸 순서로? 처음은 bid price 순서로.->관련성 문제.(관련 없는게 왜 뜸?)대안: bid price와 관련성 2개로.(CTR: clickthrough rate = clicks per impressions) ad rank는 bid*CTR이 큰 순서대로paid는 (다음 순번의 ad rank)/CTR 이고, 맨 아래는 1센트(변동 가능) win-win-win검색엔진은 돌릴 돈을 어느정도 받고사용자는 필요한 검색을 하고, 어느정도 관련..