일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 객체지향설계
- docker
- NLP
- 스케줄러
- 데이터분석
- 자료구조
- css
- 프로세스
- 컴파일러
- 랩실일기
- 웹소프트웨어
- 파싱
- 운영체제
- 오픈소스웹소프트웨어
- 컴파일
- 정보검색
- 가상메모리
- 소프트웨어공학
- DB
- OS
- 데이터베이스
- 도커
- C언어
- 자연어처리
- 파싱테이블
- 836
- 언어모델
- Linear Algebra
- 클래스
- React
- Today
- Total
목록학교 공부/정보검색(4-2) (11)
observe_db

2. Why rank?랭킹을 통해 문제를 줄인다. 여러가지 방법들Videotape themAsk them to "think aloud"Interview themEye-track themTime themRecord and count their clicks그리고 결과를 추적.결과를 보면(그래프)- 보는거와 클릭하는 것 3. More on cosine이전의 유사도 계산에서 length normalization을 했다.거리로 유사도가 흐려지는 것을 방지. 그러나 이래도 문제 발생.- 문서 크기가 작으면 유사도가 과대평가되고, 문서가 크면 유사도가 과소평가됨. =>pivot normalization사용 Pivot normalization-pivot length를 정하고, 그 길이를 기준(그래프의 pivot이라 ..

10/29 주요 용어Term frequency: 용어의 빈도(instance의 수). ranking의 핵심tf-idf ranking: term frequency와 id frequency(Document frequency의 inverse). Vector space model: 벡터 공간에 넣어서 용어간의 유사도를 알아낼 수 있음. Ranked retrieval지금까지의 Boolean 방식은 용어의 유무만 알려준다.숙련자는 and/or의 조합으로 원하는 정보를 쉽게 찾지만, 일반인이 이런 테크닉을 하는 것은 어렵다.rank를 매겨서 상위 10개 정도만 보여준다면 쉬워진다. 관련된 것들을 먼저(상위에) 나오게 한다.relevance ranking을 위해서 query-document 짝에 대해 0~1의 값으로 ..
2. CompressionWhy?적은 디스크 용량=>비용 절약메모리 절약=>속도 향상디스크->메모리간 데이터 전송 속도 향상단, 압축해제 알고리즘도 꽤 속도가 있어야함.(이게 느리면 의미가 없다) 왜 정보 검색에서?dictionary 고려- 메인메모리 사용을 줄일 수 있음posting-디스크 필요 공간 줄이고, 디스크를 읽는 시간도 줄임. Lossy와 lossless- Lossy는 손실이 있지만 많이 압축됨- lossless는 손실이 없음. 3. Term statisticsterm vocabulary의 크기는 얼마?(모든 웹페이지를 인덱싱하려 할 때에 collection의 크기는?)length 20에 최소 70^20(약 10의 37승)개의 다른 words가 존재.Heap's law: M = kT^bM:..

2. Introduction정보 검색은 HW의 제약조건에 기반한다.메모리가 디스크(HDD)보다 빠르지만(10^3~10^6정도), 용량이 작다.때문에 페이징 등의 기법으로 디스크에서 정보를 가져와야하는데,Disk는 회전/탐색에 시간이 걸리지만, Block 단위로 한번에 큰 범위를 가져오는게 가능하다.(8KB~256KB) RCV1 collection로이터 통신 collection기사 제목과 짤막한 내용으로 구성된다.기사 개수:800K기사당 토큰 수 200term 수 400K(보통 큰 범위는 500K정도)토큰당 바이트 6(공백 등 포함)/4.5(공백 등 제외)term 당 바이트 7.5(*토큰에서 짧고 자주 나오는 단어로 인해 평균이 내려감)non-positional posting 100M 3. BSBI alg..