일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- DB
- 객체지향설계
- 클래스
- 자연어처리
- 소프트웨어공학
- 언어모델
- 스케줄러
- NLP
- 컴파일
- css
- 컴파일러
- 도커
- 가상메모리
- 자료구조
- 오픈소스웹소프트웨어
- 데이터분석
- OS
- C언어
- 836
- 파싱
- 운영체제
- 프로세스
- docker
- 정보검색
- Linear Algebra
- 데이터베이스
- 웹소프트웨어
- React
- 랩실일기
- 파싱테이블
- Today
- Total
목록정보검색 (8)
observe_db
2. CompressionWhy?적은 디스크 용량=>비용 절약메모리 절약=>속도 향상디스크->메모리간 데이터 전송 속도 향상단, 압축해제 알고리즘도 꽤 속도가 있어야함.(이게 느리면 의미가 없다) 왜 정보 검색에서?dictionary 고려- 메인메모리 사용을 줄일 수 있음posting-디스크 필요 공간 줄이고, 디스크를 읽는 시간도 줄임. Lossy와 lossless- Lossy는 손실이 있지만 많이 압축됨- lossless는 손실이 없음. 3. Term statisticsterm vocabulary의 크기는 얼마?(모든 웹페이지를 인덱싱하려 할 때에 collection의 크기는?)length 20에 최소 70^20(약 10의 37승)개의 다른 words가 존재.Heap's law: M = kT^bM:..

2. Introduction정보 검색은 HW의 제약조건에 기반한다.메모리가 디스크(HDD)보다 빠르지만(10^3~10^6정도), 용량이 작다.때문에 페이징 등의 기법으로 디스크에서 정보를 가져와야하는데,Disk는 회전/탐색에 시간이 걸리지만, Block 단위로 한번에 큰 범위를 가져오는게 가능하다.(8KB~256KB) RCV1 collection로이터 통신 collection기사 제목과 짤막한 내용으로 구성된다.기사 개수:800K기사당 토큰 수 200term 수 400K(보통 큰 범위는 500K정도)토큰당 바이트 6(공백 등 포함)/4.5(공백 등 제외)term 당 바이트 7.5(*토큰에서 짧고 자주 나오는 단어로 인해 평균이 내려감)non-positional posting 100M 3. BSBI alg..

document의 다양한 format과 language.- word, pdf, hwp, html, excel, html 등등- 언어는 더하다.(한중일, 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어등등등)- character(문자)도 다양하고(유럽의 알파벳+변형, 키릴문자나 히라가나, 가타카나, 번체와 간체 등)- 여기에 코드 format은? utf-8이 일반적이지만, 그 외에도 많다. 나누는 단위는?-file단위? email 단위?-답이 없다.(크면 다시 찾는 경우 존재. 작으면 위치 파악이 어려움) 용어 정의Word: text 내에서 나타나는 연속된 단위의 문자Term: 일반적인 단어(대소문자 구분X, 기본형, 복수형X)Token: doc. 내에서 실제로 나타나는 각각의 instance..

정보검색(Information Retrieval, IR)은 거대한 collection들에서 정보 필요를 만족시키는 비구조화된 특성의 물질을 찾는 것이다. 원문Information Retrieval is finding material(usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Boolean Retrieval불린(Boolean) 모델은 정보검색 시스템의 가장 간단한 모델이다.쿼리와 불린 표현들검색엔진은 이 불린식을 만족하는 모든 문서를 반환한다.구글은 불린 모델을 쓸까?쿼리를 ..