observe_db

[NLP] 2. 딥러닝 기초 본문

학교 공부/자연언어처리(4-2)

[NLP] 2. 딥러닝 기초

쩡윤 2024. 10. 3. 17:55

 

인간은 특징 인식으로 어떤 개념을 이해할 수 있으나

컴퓨터는 불가능.(rule-based)

 

인공 신경망(Neural Network)

: 생물학적 신경망(뇌)을 계산 모델로 변경

: 하나의 공통적인 알고리즘으로 작동되도록 함-학습에 의해 모든 것 처리.

 

퍼셉트론(Perceptron)

Single: 입력/출력 2개 층으로 구성.

Multi: 입력/출력과 hidden layer로 3개 이상의 층

 

RNN(Recurrent Neural Network)

: 언어와 같은 순서가 있는 단어열을 처리할 수 있는 인공 신경망

: 노드는 하나의 인공신경망 cell을 말함.

: 시간 순서상 다음 셀로 정보가 전달되는 연결 존재

 

오류 역전파(Back-propagation Through Time, BPTT)

: 손실을 미분하여 가중치 재조정

: 출력 부분까지 모든 시간 스텝의 gradient를 모두 계산

(시간 스텝수는 순방향과 같음)

 

기울기 소실(Gradient vanishing problem): 매우 깊은 신경망의 경우 활성화함수(tanh, sigmoid)의 값이 소실되는 문제

  • 왜냐하면 저 활성화함수의 기울기는 1보다 작기때문에, 값이 줄어드는 방향이 된다.
  • LSTM이나 GRU RNN등으로 해결

Attention 기법

  • 두 백터의 dot product는 유사도를 나타내어 주의 집중에 이용
  • 결과적으로 RNN의 모든 시간에 대한 Attention 계산 필요
  • 효과
    • 먼거리 정보 처리
    • 정보 병목현상 해결
    • 직렬 처리로 속도 느림
  • Self Attention: 한 문장 내의 자기 자신과 주변 단어에 대한 attention 계산.(주변 단어 영향)
  • softmax로 유사도 값을 확률로 변환

 

Transformer방식

-그냥 중요함

 

BERT:Bi-directional Encoder Representations from Transformers

  • 양방향 Transformer Encoder
  • 12계층
  • 시퀸스 라벨링에 사용
  • word peice token으로 unknown word 문제 완화.
    • playing->play ##ing
    • unfortunately->un ##fortunate ##ly
  • 사전학습(pretraining): 대규모 교사학습 데이터 구축은 불가능하므로, 일반 텍스트 데이터에서 self-supervised learning을 이용하여 언어/지식에 대한 일반적 학습.
    • Masked Language Model: 랜덤으로 선택된 일정 데이터(15%)를 변형후 원형 예측. 80% [mask], 10% 랜덤, 10% rmeofh
    • Next Sentence Prediction
  • 정밀 학습(fine tuning): 문장 비교/분류 같은 세부 과제로 파라미터 조정
    • 구체적 작업에 대해 학습하여
    • 사전 학습 모델을 구체적 task 데이터로 학습
    • 상대적으로 적은 교사학습 데이터도 효과적.
Comments