observe_db

[NLP] 5. 개체명 인식(Named Entity Recognition) 본문

학교 공부/자연언어처리(4-2)

[NLP] 5. 개체명 인식(Named Entity Recognition)

쩡윤 2024. 10. 10. 23:30

24.10.02 수업

 

개체명인식(Named Entity Recognition, NER)

  • 비정형 텍스트에서 개체명을 식별하고
  • 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG) 등 미리 정의된 개체명(named)을 분류
    =>Sequence labeling
  • 예시로 의료분야의 약품, 유전자 이름, 임상 절차 등이 있음.
  • 하나의 개체로 처리할 명사구를 인식하고 그 명사구의 속성을 파악
  • 질의응답, 정보 검색, 상호 참조 해결, 토픽 모델링 등의 첫 단계로 종종 사용됨.
  • 명사를 처리하기 편리하고, 긴 명사가 처리되는 효과로 문장 전체의 이해도 편리해짐.

고려사항

  • 올바른 범위: 전체적인 탐지가 필요
  • 평가 방법: 완전히 일치할 때에 or 일부 포함되면 점수를 주는 경우

개체명 인식의 모호성: 같은 개체도 문맥에 따라 다른 분류 필요

'청주 시청에서 김과장을 만났다.'
'청주 시청에서 정책이 발표되었다.'
  • 두 문장은 동일하게 <청주 시청(에서)>가 문장에 포함되나, 의미가 다름.
  • 첫 문장은 장소(LC), 두번째 문장에선 조직(OG)로 사용됨.

 

BIO (tagging) scheme

  • 단어별 태그를 부여하되, 단어 경계를 구분하는 태그 추가
  • B(Begin), I(Inside), O(Outside) 태그를 개체명 태그 앞에 부착함.
  • 조합: {B, I} * {PER, LOC, ORG} + {O}
  • 경우에 따라 S(Single), E(End)도 사용함.
  • 가변길이 개체명에 대해 n-to-n labeling이 가능하게 하여 인공지능 모델 사용 편리.(학습하여 성능을 높일 수 있음)
  • 개체명 인식 문제를 품사 태깅으로 변경시킴.

Bi-LSTM 기반

  • 입력 문장은 단어 단위의 임베딩으로 변환되어 모델의 입력으로 사용됨
  • 정방향/역방향 자질 추출(Bi-LSTM이니)
  • 분류기를 통해 NER 태그 선택

BERT 기반

  • n:n seq labeling 문제로 처리
  • 사전학습도니 BERT를 개체명 레이블이 부착된 데이터로 재학습하여 fine-tuning
  • 단어 단위 입력에 대해 개체명 BIO 태그 부착
  • 띄어쓰기가 없거나 분리가 필요한 언어에서는 글자별 태깅
 
 

'학교 공부 > 자연언어처리(4-2)' 카테고리의 다른 글

[NLP] 7. 단어 의미 모호성 해소  (0) 2024.11.01
[NLP] 6. 구문 분석  (5) 2024.10.17
[NLP] 4. 품사 태깅  (1) 2024.10.06
[NLP] 3. 형태소 분석(Morphological Analysis)  (0) 2024.10.04
[NLP] 2. 딥러닝 기초  (0) 2024.10.03
Comments