일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- docker
- css
- 클래스
- 운영체제
- 정보검색
- 오픈소스웹소프트웨어
- 언어모델
- 프로세스
- 자연어처리
- 스케줄러
- Linear Algebra
- 파싱
- 객체지향설계
- 컴파일러
- OS
- 도커
- 웹소프트웨어
- 836
- 가상메모리
- 소프트웨어공학
- 파싱테이블
- 데이터베이스
- DB
- C언어
- 컴파일
- 랩실일기
- React
- 데이터분석
- 자료구조
- NLP
- Today
- Total
목록정보검색 (8)
observe_db

원본 chap. 13~15 X는 doc.들의 공간C는 class의 집합D는 라벨된 doc.들의 학습 set 분류기 γ : X->Cex. 감성 분석 방식1) 수작업2) 규칙 기반3) 통계/확률적 Naive Bayes c_map = argmax P(c|d)이를 베이즈 정리를 이용하여 풀면c_map = argmax P(d|c)*P(c) 또한 이 수식을 따른다.n_d는 document의 길이(=token의 수)t_k는 문서속의 토큰. Maximum a posteriori(MAP) class 그리고 값들이 확률값이므로 [0,1]의 범위를 가진다.=>곱하면 수가 계속 작아져 underflow 발생 가능=>log 사용. 여기서 Nc는 class c 내의 doc의 수. N은 전체 doc 수Tct는 class c의 학..

2. Introduction검색 엔진의 평가지표- 얼마나 인덱스가 빠른지- 얼마나 빠르게 찾는지- 쿼리당 비용이 얼마인지이러한 속도/크기/비용을 수치화 + 사용자 만족도(user happiness)도 주요함. Factor들은 이러한 것들을 포함한다.응답 속도인덱스 크기uncluttered UI'relevance'(관련 있는지)무료인가? 사용자(USER)에 대한 정의searcher(검색자): 빨리 결과가 나오면 좋아함advertiser(광고자): 많이 클릭하면 좋아함buyer(구매자): 많이 구매하면 좋아함seller(판매자): 많이 판매하면 좋아함CEO: 회사의 이익/일이 효율적이면 좋아함 사용자 만족도 == 쿼리의 결과가 얼마나 연관있는지.(relevance)그렇다면 어떻게 relevance를 측정하는..

2. Why rank?랭킹을 통해 문제를 줄인다. 여러가지 방법들Videotape themAsk them to "think aloud"Interview themEye-track themTime themRecord and count their clicks그리고 결과를 추적.결과를 보면(그래프)- 보는거와 클릭하는 것 3. More on cosine이전의 유사도 계산에서 length normalization을 했다.거리로 유사도가 흐려지는 것을 방지. 그러나 이래도 문제 발생.- 문서 크기가 작으면 유사도가 과대평가되고, 문서가 크면 유사도가 과소평가됨. =>pivot normalization사용 Pivot normalization-pivot length를 정하고, 그 길이를 기준(그래프의 pivot이라 ..

10/29 주요 용어Term frequency: 용어의 빈도(instance의 수). ranking의 핵심tf-idf ranking: term frequency와 id frequency(Document frequency의 inverse). Vector space model: 벡터 공간에 넣어서 용어간의 유사도를 알아낼 수 있음. Ranked retrieval지금까지의 Boolean 방식은 용어의 유무만 알려준다.숙련자는 and/or의 조합으로 원하는 정보를 쉽게 찾지만, 일반인이 이런 테크닉을 하는 것은 어렵다.rank를 매겨서 상위 10개 정도만 보여준다면 쉬워진다. 관련된 것들을 먼저(상위에) 나오게 한다.relevance ranking을 위해서 query-document 짝에 대해 0~1의 값으로 ..