일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 데이터분석
- 웹소프트웨어
- 프로세스
- 파싱
- 컴파일러
- 자연어처리
- OS
- 데이터베이스
- 클래스
- 소프트웨어공학
- NLP
- css
- 가상메모리
- 애자일
- 벡터
- 836
- Agile
- 랩실일기
- 운영체제
- 파싱테이블
- 정보검색
- 스케줄러
- 객체지향설계
- React
- 언어모델
- Linear Algebra
- 컴파일
- C언어
- 오픈소스웹소프트웨어
- DB
Archives
- Today
- Total
observe_db
[NLP] 4. 품사 태깅 본문
태깅(일반적 의미): 같은 단어가 문맥에 따라 의미가 다를 경우(중의성), 이를 구분하는 정보 부착 작업
ex. 품사 태깅, 단어 의미 태깅
품사 태깅(part-of-speech tagging): 문장을 이루고 있는 각 단어(형태소)에 정확한 하나의 품사를 부여하는 것
- (어휘 분석에서는) 어휘 태깅이라고도 함.
- 많은 단어가 품사 중의성을 가지므로 이를 해결하는 작업.(형태론적 중의성 해결-morphological dis-ambiguation)
- 일반적으로 형태소 분리를 가정.
품사 중의성
- 같은 단어(형태소)가 같은 문맥에서 여러 품사가 가능할 경우
- 문맥 범위에 따라 중의성 해소(어절/문장/문단/문서..)
형태소 분석
- 어절 단위 분석
- 여러 가능한 형태소 분석 후보 출력(품사를 포함하기도 함)
품사 태깅
- 문장 단위 분석
- 각 어절에 나타난 형태소 후보 중 적합한 형태소 선택
- 형태소 후보에 적합한 품사 부착
- 원칙적으로 가장 적합한 하나의 분석 출력
자동 품사 태깅 방법
지식/규칙 기반 품사 태깅
- 문맥틀 형식으로 규칙 기술
- 제약 문법을 이용하여 규칙 표현
- 휴리스틱 규칙
- 관형격 뒤에는 반드시 명사(or 관형격이 중복)
- 부사는 형용사/동사 수식
- 조사는 단독 X
- 어미는 용언의 어간 뒤에 붙는다(직접/간접)
Lattice(격자) 구조를 이용하는 방법
- 사전에 있는 단어들로 문장을 분해하고 이 연결관계를 격자 구조로 표시
- 격자를 지나서 문장을 이룰 수 있는 모든 경우의 수를 계산하여 가장 좋은 경로를 선택
- 사전을 이용한 방법으로 규칙에 기반하나, 경로 선택시에 통계 정보 이용 가능
통계 기반 접근법
- 코퍼스에 나타난 품사 부착 통계정보를 이용
- 통계적으로 가장 확률 높은 품사 선택
- 품사 태그가 부착된 대량의 corpus가 필요 but 있기만 하면 추출이 용이
- 통계적 품사 태깅 방법
- 은닉 마르코프 모형(HMM)
- 통계적 결정 트리
- 최대 엔트로피 모형
- 신경망
- 베이지언 추론
마르코프 모델(Markov model)
- 상태와 변이, 상태에서의 출력 관계를 표시
- 관계를 단순화하여 계산 가능한 모델 제시
- 예시: 상태 Si에서 입력 ai를 받아 상태 Sj로 변하며 출력 o를 보내는 모델
은닉 마르코프 모델(Hidden Markov model, HMM)
- 상태가 보이지 않는 (관측할 수 없는) 마르코프 모델
- 품사와 품사의 연속 확률 모델은 '품사'를 볼 수 없으므로 은닉 마르코프 모델.
- 반대로 단어와 단어의 연속 확률 모델은 '단어'가 관측 가능한 단위므로 마르코프 모델
품사태깅 => 은닉 마르코프 모델
- 품사 태깅 문제 정의
- 베이지안 rule을 적용하여 아래와 같은 수식으로 정의
- 문장내 단어가 n개이면 한 문장은 w_{1,n} = w_1, w_2....w_n로 표현
- w_i는 i번째 나타나는 단어를 의미
- 대응되는 품사열은 t_{i,n} = t_1,...t_n으로 표현
- 주어진 한 문장내의 단어열 w_{i,n}에 대해 확률이 가장 높은 품사열 t_{i,n}을 구하는 것 => P(T_(1,n), w_(1,N))을 구하기.
- 수식이 다음과 같이 변형된다.
- 마르코프 가정(+t_0는 문장 시작 기호)
- 단어와 단어는 독립적
- 현재 단어는 현재 태그에만 의존적
- 현재 품사는 이전 품사에만 의존적
모델 디코딩-비터비 알고리즘
- 검색 범위를 전체(n)에서 일부(beam size)로 줄여 속도 향상
- 최적 보장X, 그러나 실용적(n이 굉장히 큰 경우가 많아서)
딥러닝 기반 구현
End-to-End(종단간) 접근 방법
- 형태소 분석과 품사 태깅을 한꺼번에 처리하는 방식
- 표층형 문장(실제로 쓴 문장)을 입력받아 형태소 및 품사 태그를 한번에 출력
- 언어 모델의 문장 단위 처리 능력을 활용
Transformer 기반 형태소 분석 및 품사 태깅
- 많은 데이터로부터 비지도학습으로 특징 자동학습
- 사전학습된 정보를 품사 태깅에 튜닝하는 방식의 멀티태스크 학습
- 폭넓은 문맥정보를 다룰 수 있음
- 비교적 계산 공간 및 시간이 많이 소요(규칙/통계 기반에 비해)
- 상위 딥러닝 기반 모델과 연계 가능성 높음.
BERT의 장점
- fine tune 가능
- 한 문장단위의 태깅 작업이 가능(NER)
- n:n 매핑의 경우 가능
BERT를 이용한 영어 품사 태깅
- 단어단위 POS(Part of Speech, 품사) 태그 부착
- 단어내 형태소는 무시(대개 접두/접미사)
- n-n sequence labeling 문제로 처리
BERT를 이용한 중국어 품사 태깅
- 띄어쓰기가 없으므로, 단어 분리 필요(형태소 분석에 대응)
- 단어 분리는 BIO 태그 이용
- BIO tag는 B-Begin/I-Inside/O-Other/E-End/S-Single
- 분리와 태깅을 결합한 BIO + POS tag 형태로 seq labeling(n-n) 가능
한국어 품사 태깅
어절 분석 3단계
- 형태소 원형 복원
- 형태소 분리
- 형태소 품사 태깅
글자(음절) 단위 BIO+POS tag 방법 적용시 문제
- 어절 내 형태소 분리와 어절간 띄어쓰기의 차이
- 형태소 표층형/심층형 간 어휘 차이(원형 복원- 돕다->도와주다, 도왔다, 도울, 도움)
- 형태소 표층형/심층형 간 어휘 길이 차이
품사 태깅 접근 방법
- seq2seq의 번역 문제
- 번역 방법을 이용하여 음절 시퀸스 생성(n-m)
- 음절 시퀸스에 태그 포함
- seq2seq후 seq labeling으로 접근
- 원형 복원 n-m 처리 후 n-n이 가능한 seq2seq문제로 단계적 해결
- seq labeling 문제로 접근 - 복합 품사 태그 및 사전
- 복합 품사 태그를 사용하여 n-n 문제로 변환
- 복합 품사 태그는 사전을 이용하여 후처리
- seq-labeling 문제로 접근 - 복합 품사 형태소 태그
- 복합 품사 형태소 태그 사용하여 n-n 문제로 변환
- 사전 불필요
'학교 공부 > 자연언어처리(4-2)' 카테고리의 다른 글
[NLP] 6. 구문 분석 (5) | 2024.10.17 |
---|---|
[NLP] 5. 개체명 인식(Named Entity Recognition) (0) | 2024.10.10 |
[NLP] 3. 형태소 분석(Morphological Analysis) (0) | 2024.10.04 |
[NLP] 2. 딥러닝 기초 (0) | 2024.10.03 |
[NLP]1. 자연어처리 개요 (3) | 2024.10.03 |
Comments