- Bidirectional Encoder Representations from Transformers
- 자연어 처리 언어 모델
특징
- RNN을 사용하지 않는 Attention 모델
- 장점
- 언어 이해의 우수성
- 단점
- 계산 cost가 매우 큰 모델
활성화 함수
- ReLU 보다 부드러운 형태인 GELU 적용
- 음수에 대한 미분이 가능
주요 기술
- WordPiece tokenizing
- 접두사, 접미사를 구분
- ex) playing, coming, loving → ##ing
- ex) 서울특별시, 세종특별시, 성남시, 안양시 → ##특별시, ##시
- Multi-Head Attention
- Masked Attention