학교 공부/자연언어처리(4-2)
[NLP] 8. 의미역 분석
쩡윤
2024. 11. 1. 14:07
10/31
의미역 분석
: 의미를 해석하기 위해 서술어가 수식하는 대상의 의미관계를 파악하고 역할을 분류
-서술어 중심으로 문장 파악(FrameNet과 유사)
논항: 수식을 받는 대상
문장 구조가 바뀌어도 논항에 대한 행위주/피동작주는 불변.(문장 내의 성분은 변화 가능)
의미역은 문법구조에 반영되는 의미의 측면을 파악하기 위해 고안되었음
구조적으로 모호성을 가지는 문장의 의미를 정확하게 이해할 수 있음.
의미역 종류
- 행동주
- 도구
- 피동주/수동주
- 경험자
- 수혜자
- 출처/근원
- 도달점/목표
- 장소/위치(수)
- 이유 (수)
- 목적 (수)
- 경로 (수)
- 시간 (수)
- 방법(수)
수의적 의미역은 서술어의 의미를 보충한다.
통사적 분석에서 의미역 기준에 따라 하나의 명사구는 하나의 의미역만을 가짐.
Fillmore의 FrameNet에 기반
ProBank
- CoNLL 2004 and 2005 에서 사용된 의미역 주석 학습데이터
- 의미역을 단순화하여 기계학습에 실용적으로 사용할 수 있도록 함.
- ARG 0: 주체, ARG 1: 대상.(모든 술어에 일반적으로 동일)
ARG 2 이상은 술어 종류에 따라 선택적. - 품사 태깅과 유사.(하나하나 태그를 부여)
의미역 분석 방법
지도학습 기반 방법
- 대량의 train data 필요+label 존재하는.
- CRFs, SVM등의 classifier 사용
- 형태소, 구문 정보를 자질로 많이 사용.
- 단어 의미 모호성 문제를 해결하기 위해 개체명 인식 정보를 활용하기도 함
- 신조어를 잘 결정하지 못하는 한계.
- 전처리 과정으로 구문분석, 단어 의미 모호성 해소, 개체명 분석을 주로 함
- 전처리 과정을 위한 학습데이터 확보 문제가 있음.
규칙 기반 알고리즘(속성 기반)
- 문장 구문분석
- 파스트리내의 각 술어(predicate)에 대해 다음을 수행
- 술어와 파스 내의 다른 노드 사이의 속성 추출
- 속성을 근거로 노드 분류
각 노드에서의 분류 작업
- 파스트리 가지 치기: 휴리스틱. 구성성분(논항)이 될만한 것 선택
- 논항 가능성이 있는 노드 표시
- 선택된 노드에 대해서만 분류