IT용어위키



BERT

Bidirectional Encoder Representations from Transformers
자연어 처리 언어 모델

BERT 아키텍처.jpeg

특징

  • RNN을 사용하지 않는 Attention 모델
  • 장점
    • 언어 이해의 우수성
  • 단점
    • 계산 cost가 매우 큰 모델

활성화 함수

ReLU 보다 부드러운 형태인 GELU 적용
  • 음수에 대한 미분이 가능

GELU.png

주요 기술

  • WordPiece tokenizing
    • 접두사, 접미사를 구분
    • ex) playing, coming, loving → ##ing
    • ex) 서울특별시, 세종특별시, 성남시, 안양시 → ##특별시, ##시
  • Multi-Head Attention
  • Masked Attention

  출처: 공대위키(공대위키에서 최신 문서 보기)
  * 본 페이지는 공대위키에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 공대위키에서 확인하세요!