일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- React
- 파싱테이블
- 컴파일
- 프로세스
- 소프트웨어공학
- 데이터분석
- C언어
- 클래스
- 컴파일러
- 랩실일기
- Linear Algebra
- OS
- 스케줄러
- 파싱
- 정보검색
- 웹소프트웨어
- 벡터
- Agile
- 가상메모리
- 언어모델
- DB
- 오픈소스웹소프트웨어
- NLP
- 운영체제
- 데이터베이스
- 836
- 자연어처리
- 애자일
- css
- 객체지향설계
- Today
- Total
목록자연어처리 (10)
observe_db
1. 사전 학습과 토큰화거대 언어 모델LSTM이나 Transformer등을 쌓아 언어 모델의 크기를 확장한 것(수백 M~T)일반적인 NLP TASK 성능 대폭 향상QnA 뿐 아니라 대화형 가능학습데이터 부족 문제: 학습량 및 미등록어 처리Pre-training: 학습 데이터 부족을 해결하기 위한 기초적 학습.대규모 원시 텍스트(raw text)를 이용하여 학습(self-supervised learning)모델이 일반적 언어를 처리할 수 있도록 초기화모델의 파라미터 초기값은 성능에 매우 중요사전 학습 후 fine tuning으로 성능 향상예시다음 단어 예측/빈칸 예측/단어 순서/바뀐 단어 맞추기/다음 문장 예측/ 문장 순서 예측단어 토큰화: 단어를 통계에 기반한 sub-word(토큰)으로 분리하여 미등록어..
11/7 단어 임베딩(word Embedding): 문자를 숫자들의 배열인 벡터로 변환하는 방법: 또는 그러한 방법으로 만들어진 단어 벡터.단어벡터-단어사이의 관계(의미)를 나타냄. 단어 임베딩의 목표쉽게 확보할 수 있는 대량의 원시 말뭉치를 통해비지도 학습(self-supervised learning)을 하고다양한 NLP 시스템에서 범용적으로 사용할 수 있는 단어 벡터를 만드는 것One-hot Encoding: 학습 데이터에 존재하는 단어들을 수집하여 vocabulary 구축.단어들의 등장 빈도순으로 순열 부여.vocabulary의 크기(=|V|)가 매우 크므로 매우 큰 차원의 sparse vector가 필요하다.*정보검색에서 나오는 'term'의 수를 5M 정도로 잡는다.단어의 의미간 관계를 표현할..
11/06 기계번역(MT: Machine Translation): 기계를 이용하여 한 언어로 쓰인 글(원어)를 다른 언어의 글(번역어)로 변환ex) 파파고, 구글번역 기계 번역의 역사규칙기반-통계기반-신경망규칙기반에서 통계기반이 시작될 수 있던 이유는, 컴퓨터 규모가 커지고 통계적 데이터가 대량 축적되었기 때문. 규칙기반 기계 번역- 언어학적, 문법적 규칙을 이용해 문장을 번역- 문장을 형태소나 구문 등으로 분석하고 분해된 내용을 번역 후 재조합- 직접 번역/ 전달 번역/피봇 번역-N개의 언어를 번역할 때, 직접 번역과 전달 번역은 N*N(정확히는 N(N-1). 자기자신으로 번역하진 않으니), Interlingua는 2N의 번역 복잡도를 가진다.직접(direct) 번역: 언어 구조 변형 없이 거의 1:..
10/31 정보 추출(Information Extraction, IE): 비정형 텍스트로부터 구조화된 정보를 자동추출구조화된 정보는 관계형 튜플 형태로 표현ex. Entity1, Relation, Entity2 관계 추출(Relation Extraction): 개체간 관계를 식별하고 추출하는 작업각 개체에 연결되는 개체 유형과 둘 사이의 관계 유형을 추출 이벤트 추출(Event Extraction): 하나의 이벤트를 중심으로 주체, 대상, 장소, 시간 등을 추출하는 작업여러 개의 관계로 구성슬롯 채우기: -> 정보 추출의 목적비정형 데이터에서 정형 데이터 추출(관계, 추출)관계를 논리적 표현으로 변형하여 논리 연산논리적 연산을 통해 새로운 추론 가능의미적 관계를 이용한 질의 응답지정 관계 정보 추출: ..