observe_db

[NLP] 4. 품사 태깅 본문

학교 공부/자연언어처리(4-2)

[NLP] 4. 품사 태깅

쩡윤 2024. 10. 6. 21:25

태깅(일반적 의미): 같은 단어가 문맥에 따라 의미가 다를 경우(중의성), 이를 구분하는 정보 부착 작업

ex. 품사 태깅, 단어 의미 태깅

 

품사 태깅(part-of-speech tagging): 문장을 이루고 있는 각 단어(형태소)에 정확한 하나의 품사를 부여하는 것

  • (어휘 분석에서는) 어휘 태깅이라고도 함.
  • 많은 단어가 품사 중의성을 가지므로 이를 해결하는 작업.(형태론적 중의성 해결-morphological dis-ambiguation)
  • 일반적으로 형태소 분리를 가정.

품사 중의성

  • 같은 단어(형태소)가 같은 문맥에서 여러 품사가 가능할 경우
  • 문맥 범위에 따라 중의성 해소(어절/문장/문단/문서..)

형태소 분석

  • 어절 단위 분석
  • 여러 가능한 형태소 분석 후보 출력(품사를 포함하기도 함)

품사 태깅

  • 문장 단위 분석
  • 각 어절에 나타난 형태소 후보 중 적합한 형태소 선택
  • 형태소 후보에 적합한 품사 부착
  • 원칙적으로 가장 적합한 하나의 분석 출력

자동 품사 태깅 방법

지식/규칙 기반 품사 태깅

  • 문맥틀 형식으로 규칙 기술
  • 제약 문법을 이용하여 규칙 표현
  • 휴리스틱 규칙
    • 관형격 뒤에는 반드시 명사(or 관형격이 중복)
    • 부사는 형용사/동사 수식
    • 조사는 단독 X
    • 어미는 용언의 어간 뒤에 붙는다(직접/간접)

Lattice(격자) 구조를 이용하는 방법

  • 사전에 있는 단어들로 문장을 분해하고 이 연결관계를 격자 구조로 표시
  • 격자를 지나서 문장을 이룰 수 있는 모든 경우의 수를 계산하여 가장 좋은 경로를 선택
  • 사전을 이용한 방법으로 규칙에 기반하나, 경로 선택시에 통계 정보 이용 가능
  •  

 

 

통계 기반 접근법

  • 코퍼스에 나타난 품사 부착 통계정보를 이용
  • 통계적으로 가장 확률 높은 품사 선택
  • 품사 태그가 부착된 대량의 corpus가 필요 but 있기만 하면 추출이 용이
  • 통계적 품사 태깅 방법
    • 은닉 마르코프 모형(HMM)
    • 통계적 결정 트리
    • 최대 엔트로피 모형
    • 신경망
    • 베이지언 추론

마르코프 모델(Markov model)

  • 상태와 변이, 상태에서의 출력 관계를 표시
  • 관계를 단순화하여 계산 가능한 모델 제시
  • 예시: 상태 Si에서 입력 ai를 받아 상태 Sj로 변하며 출력 o를 보내는 모델
  •  

마르코프 모델

 

은닉 마르코프 모델(Hidden Markov model, HMM)

  • 상태가 보이지 않는 (관측할 수 없는) 마르코프 모델
  • 품사와 품사의 연속 확률 모델은 '품사'를 볼 수 없으므로 은닉 마르코프 모델.
  • 반대로 단어와 단어의 연속 확률 모델은 '단어'가 관측 가능한 단위므로 마르코프 모델

품사태깅 => 은닉 마르코프 모델

  • 품사 태깅 문제 정의
    • 베이지안 rule을 적용하여 아래와 같은 수식으로 정의
    • 문장내 단어가 n개이면 한 문장은 w_{1,n} = w_1, w_2....w_n로 표현
    • w_i는 i번째 나타나는 단어를 의미
    • 대응되는 품사열은 t_{i,n} = t_1,...t_n으로 표현
    • 주어진 한 문장내의 단어열 w_{i,n}에 대해 확률이 가장 높은 품사열 t_{i,n}을 구하는 것 => P(T_(1,n), w_(1,N))을 구하기.
    • 수식이 다음과 같이 변형된다.

 

 

  • 마르코프 가정(+t_0는 문장 시작 기호)

    1. 단어와 단어는 독립적
    2. 현재 단어는 현재 태그에만 의존적
    3. 현재 품사는 이전 품사에만 의존적

모델 디코딩-비터비 알고리즘

  • 검색 범위를 전체(n)에서 일부(beam size)로 줄여 속도 향상
  • 최적 보장X, 그러나 실용적(n이 굉장히 큰 경우가 많아서)

 

딥러닝 기반 구현

End-to-End(종단간) 접근 방법

  • 형태소 분석과 품사 태깅을 한꺼번에 처리하는 방식
  • 표층형 문장(실제로 쓴 문장)을 입력받아 형태소 및 품사 태그를 한번에 출력
  • 언어 모델의 문장 단위 처리 능력을 활용

Transformer 기반 형태소 분석 및 품사 태깅

  • 많은 데이터로부터 비지도학습으로 특징 자동학습
  • 사전학습된 정보를 품사 태깅에 튜닝하는 방식의 멀티태스크 학습
  • 폭넓은 문맥정보를 다룰 수 있음
  • 비교적 계산 공간 및 시간이 많이 소요(규칙/통계 기반에 비해)
  • 상위 딥러닝 기반 모델과 연계 가능성 높음.

 BERT의 장점

  • fine tune 가능
  • 한 문장단위의 태깅 작업이 가능(NER)
  • n:n 매핑의 경우 가능

BERT를 이용한 영어 품사 태깅

  • 단어단위 POS(Part of Speech, 품사) 태그 부착
  • 단어내 형태소는 무시(대개 접두/접미사)
  • n-n sequence labeling 문제로 처리

BERT를 이용한 중국어 품사 태깅

  • 띄어쓰기가 없으므로, 단어 분리 필요(형태소 분석에 대응)
  • 단어 분리는 BIO 태그 이용
    • BIO tag는 B-Begin/I-Inside/O-Other/E-End/S-Single
  • 분리와 태깅을 결합한 BIO + POS tag 형태로 seq labeling(n-n) 가능

 

한국어 품사 태깅

어절 분석 3단계

  • 형태소 원형 복원
  • 형태소 분리
  • 형태소 품사 태깅

글자(음절) 단위 BIO+POS tag 방법 적용시 문제

  1. 어절 내 형태소 분리와 어절간 띄어쓰기의 차이
  2. 형태소 표층형/심층형 간 어휘 차이(원형 복원- 돕다->도와주다, 도왔다, 도울, 도움)
  3. 형태소 표층형/심층형 간 어휘 길이 차이

품사 태깅 접근 방법

  • seq2seq의 번역 문제
    • 번역 방법을 이용하여 음절 시퀸스 생성(n-m) 
    • 음절 시퀸스에 태그 포함
  • seq2seq후 seq labeling으로 접근
    • 원형 복원 n-m 처리 후 n-n이 가능한 seq2seq문제로 단계적 해결
  • seq labeling 문제로 접근 - 복합 품사 태그 및 사전
    • 복합 품사 태그를 사용하여 n-n 문제로 변환
    • 복합 품사 태그는 사전을 이용하여 후처리
  • seq-labeling 문제로 접근 - 복합 품사 형태소 태그
    • 복합 품사 형태소 태그 사용하여 n-n 문제로 변환
    • 사전 불필요
 
 
Comments