일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- C언어
- 프로세스
- DB
- 데이터분석
- 정보검색
- 가상메모리
- 자연어처리
- 운영체제
- 데이터베이스
- NLP
- 랩실일기
- 웹소프트웨어
- 객체지향설계
- React
- 애자일
- 컴파일러
- Linear Algebra
- 파싱테이블
- 836
- 컴파일
- 클래스
- css
- OS
- 언어모델
- 파싱
- 소프트웨어공학
- Agile
- 오픈소스웹소프트웨어
- 스케줄러
- 벡터
- Today
- Total
목록학교 공부/정보검색(4-2) (11)
observe_db
2. Dictionariesdictionary는 term vocabulary를 저장하는 자료 구조(term voca. = data, dictionary = data structure) 대표적인 자료구조 클래스-hash와 tree(정보검색도 둘다 사용.) Hashes각 vocabulary term은 배열의 행번호인 정수로 해싱됨.쿼리 시간: 고정길이 array에 위치장점: 빠르다.(상수 시간)단점: 마이너한 용어 찾기 어려움/prefix 찾을 수 없음/voca.가 커지면 모든걸 rehash Treesprefix 문제 해결가장 간단한 트리는 이진 트리O(log M)이라 느리긴 함(M이 voca.의 크기)그러나 최적상태는 B-tree(Balanced tree)로만 가능.Rebalancing 문제도 완화 가능...
document의 다양한 format과 language.- word, pdf, hwp, html, excel, html 등등- 언어는 더하다.(한중일, 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어등등등)- character(문자)도 다양하고(유럽의 알파벳+변형, 키릴문자나 히라가나, 가타카나, 번체와 간체 등)- 여기에 코드 format은? utf-8이 일반적이지만, 그 외에도 많다. 나누는 단위는?-file단위? email 단위?-답이 없다.(크면 다시 찾는 경우 존재. 작으면 위치 파악이 어려움) 용어 정의Word: text 내에서 나타나는 연속된 단위의 문자Term: 일반적인 단어(대소문자 구분X, 기본형, 복수형X)Token: doc. 내에서 실제로 나타나는 각각의 instance..
정보검색(Information Retrieval, IR)은 거대한 collection들에서 정보 필요를 만족시키는 비구조화된 특성의 물질을 찾는 것이다. 원문Information Retrieval is finding material(usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers) Boolean Retrieval불린(Boolean) 모델은 정보검색 시스템의 가장 간단한 모델이다.쿼리와 불린 표현들검색엔진은 이 불린식을 만족하는 모든 문서를 반환한다.구글은 불린 모델을 쓸까?쿼리를 ..