일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Pre-training
- Language Modeling
- Homomorphic Encryption
- Github Copilot
- Computer Vision
- GPT
- Transformer
- 머신러닝
- 동형암호
- Private ML
- 딥러닝
- Copilot
- Model Compression
- Knowledge Distillation
- Residual Connection
- KT
- math
- bert
- Knowledge Tracing
- Machine Learning
- AI
- NLP
- 자연어처리
- ICML
- matrix multiplication
- Data Augmentation
- 표현론
- Deep learning
- Natural Language Processing
- attention
- Today
- Total
목록bert (3)
Anti Math Math Club
이번 포스팅에서는 EMNLP 2019에 accept된 Patient Knowledge Distillation for BERT model compression이라는 논문을 리뷰하도록 하겠습니다. Knowledge Distillation(KD)이란 커다란 모델(teacher model)의 학습된 '지식'을 작은 모델(student model)로 '증류'하는 방법으로 모델의 크기를 줄이는 것을 말합니다. Hinton의 Distilling the Knowledge in a Neural Network라는 논문에서 처음 제안되었는데, 다음과 같은 순서로 진행합니다. 먼저 teacher model을 학습시킵니다. student model을 학습시킬 때, loss를 실제 학습에 사용되는 loss(예를들어, BCE lo..
이번에는 짧고 간단한 논문인 Improving BERT with Syntax-aware Local Attention이라는 논문을 리뷰하도록 하겠습니다. 최근 NLP의 동향은 커다란 트랜스포머 모델을 pre-training시킨 뒤 원하는 downstream task에 fine-tuning하는 것 입니다. GPT와 BERT를 시작으로 다양한 pre-training 기법과 다양한 크기의 트랜스포머들이 세상에 나왔습니다. 그 중에서는 attention mechanism을 개선해서 좀 더 성능을 높이거나 혹은 연산량을 줄이는 방향의 연구가 많습니다(Reformer, Longformer, Sparse Transformer, Synthesizer 등). 이 논문에서는 syntax 정보를 이용해서 attention m..
이번 포스팅에서는 ICLR 2020 Honorable Mention Award를 받은 Generative Pretraining from Pixels라는 논문에 대해서 알아보도록 하겠습니다. Computer Vision에서는 ImageNet을 이용한 pre-training & fine-tuning이 거의 표준으로 자리잡고 있는 반면, NLP에서는 Wikipedia같은 거대한 corpus가 있다고 해도 sentiment나 POS tag같은 label이 붙어 있는 데이터는 많지 않기 때문에 pre-training을 하는 것이 쉽지 않습니다. 하지만, GPT와 BERT를 기점으로 한 self-supervised learning은 이러한 데이터를 활용해서 모델을 똑똑하게 pre-train하는 것을 가능하게 해 주..