일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- NLP
- 정보검색
- 836
- Linear Algebra
- 벡터
- 클래스
- 프로세스
- 파싱
- 애자일
- React
- 운영체제
- 언어모델
- 데이터베이스
- 소프트웨어공학
- OS
- 오픈소스웹소프트웨어
- 웹소프트웨어
- 스케줄러
- 랩실일기
- 컴파일
- 데이터분석
- 파싱테이블
- DB
- 가상메모리
- Agile
- 객체지향설계
- 자연어처리
- 컴파일러
- css
- C언어
Archives
- Today
- Total
목록형태소분석 (1)
observe_db
[NLP] 3. 형태소 분석(Morphological Analysis)
어절: 한국어에서는 띄어쓰기, 영어에서는 단어 단위(word phrase). 한 개 이상의 형태소로 구성.음절(Syllable): 말하고 듣는 가장 작은 발화의 단위. Character라고도 함. 자소와 명확한 구분을 위해 음절 사용.자소: 한 음절을 이루는 자음 및 모음. (한국어에서) 초,중,종성 구분. 코드: 글자와 숫자(코드)의 mapping을 표준으로 정한 것. 영문용 7비트 코드(ASCII)영문 확장용 8비트 코드: 유럽 글자나 그래픽코드 등을 위해 확장. 여러 종류 글자세트 정의ISO 10646, Unicode 등 한글 코드와 영문 코드영문은 1바이트 내에 수용 가능.(알파벳 26자+숫자, 특수기호)한글 코드는 코드 체계에 따라 바이트 수 필요.기존 영문 코드와 충돌 방지 필요SI/SO나 M..
학교 공부/자연언어처리(4-2)
2024. 10. 4. 20:32