일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 운영체제
- 소프트웨어공학
- 자연어처리
- 파싱테이블
- 정보검색
- 애자일
- C언어
- 랩실일기
- 언어모델
- Agile
- React
- 벡터
- 스케줄러
- css
- 가상메모리
- 객체지향설계
- 836
- 파싱
- 컴파일
- OS
- NLP
- 클래스
- 오픈소스웹소프트웨어
- 데이터분석
- 데이터베이스
- DB
- 프로세스
- 웹소프트웨어
- Linear Algebra
- 컴파일러
Archives
- Today
- Total
observe_db
[NLP] 5. 개체명 인식(Named Entity Recognition) 본문
24.10.02 수업
개체명인식(Named Entity Recognition, NER)
- 비정형 텍스트에서 개체명을 식별하고
- 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG) 등 미리 정의된 개체명(named)을 분류
=>Sequence labeling - 예시로 의료분야의 약품, 유전자 이름, 임상 절차 등이 있음.
- 하나의 개체로 처리할 명사구를 인식하고 그 명사구의 속성을 파악
- 질의응답, 정보 검색, 상호 참조 해결, 토픽 모델링 등의 첫 단계로 종종 사용됨.
- 명사를 처리하기 편리하고, 긴 명사가 처리되는 효과로 문장 전체의 이해도 편리해짐.
고려사항
- 올바른 범위: 전체적인 탐지가 필요
- 평가 방법: 완전히 일치할 때에 or 일부 포함되면 점수를 주는 경우
개체명 인식의 모호성: 같은 개체도 문맥에 따라 다른 분류 필요
'청주 시청에서 김과장을 만났다.' '청주 시청에서 정책이 발표되었다.' |
- 두 문장은 동일하게 <청주 시청(에서)>가 문장에 포함되나, 의미가 다름.
- 첫 문장은 장소(LC), 두번째 문장에선 조직(OG)로 사용됨.
BIO (tagging) scheme
- 단어별 태그를 부여하되, 단어 경계를 구분하는 태그 추가
- B(Begin), I(Inside), O(Outside) 태그를 개체명 태그 앞에 부착함.
- 조합: {B, I} * {PER, LOC, ORG} + {O}
- 경우에 따라 S(Single), E(End)도 사용함.
- 가변길이 개체명에 대해 n-to-n labeling이 가능하게 하여 인공지능 모델 사용 편리.(학습하여 성능을 높일 수 있음)
- 개체명 인식 문제를 품사 태깅으로 변경시킴.
Bi-LSTM 기반
- 입력 문장은 단어 단위의 임베딩으로 변환되어 모델의 입력으로 사용됨
- 정방향/역방향 자질 추출(Bi-LSTM이니)
- 분류기를 통해 NER 태그 선택
BERT 기반
- n:n seq labeling 문제로 처리
- 사전학습도니 BERT를 개체명 레이블이 부착된 데이터로 재학습하여 fine-tuning
- 단어 단위 입력에 대해 개체명 BIO 태그 부착
- 띄어쓰기가 없거나 분리가 필요한 언어에서는 글자별 태깅
'학교 공부 > 자연언어처리(4-2)' 카테고리의 다른 글
[NLP] 7. 단어 의미 모호성 해소 (0) | 2024.11.01 |
---|---|
[NLP] 6. 구문 분석 (5) | 2024.10.17 |
[NLP] 4. 품사 태깅 (1) | 2024.10.06 |
[NLP] 3. 형태소 분석(Morphological Analysis) (0) | 2024.10.04 |
[NLP] 2. 딥러닝 기초 (0) | 2024.10.03 |
Comments