일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Private ML
- Deep learning
- Copilot
- KT
- 동형암호
- GPT
- 머신러닝
- Model Compression
- 자연어처리
- Natural Language Processing
- Homomorphic Encryption
- NLP
- Knowledge Distillation
- Language Modeling
- attention
- Computer Vision
- 표현론
- Github Copilot
- ICML
- Knowledge Tracing
- AI
- Data Augmentation
- Transformer
- math
- Machine Learning
- bert
- 딥러닝
- Residual Connection
- Pre-training
- matrix multiplication
Archives
- Today
- Total
목록Knowledge Distillation (1)
Anti Math Math Club
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/babJeI/btq0ZMHz4sg/DCd1yfOxlpf317eMBeBuk1/img.png)
이번 포스팅에서는 EMNLP 2019에 accept된 Patient Knowledge Distillation for BERT model compression이라는 논문을 리뷰하도록 하겠습니다. Knowledge Distillation(KD)이란 커다란 모델(teacher model)의 학습된 '지식'을 작은 모델(student model)로 '증류'하는 방법으로 모델의 크기를 줄이는 것을 말합니다. Hinton의 Distilling the Knowledge in a Neural Network라는 논문에서 처음 제안되었는데, 다음과 같은 순서로 진행합니다. 먼저 teacher model을 학습시킵니다. student model을 학습시킬 때, loss를 실제 학습에 사용되는 loss(예를들어, BCE lo..
Machine Learning & Deep Learning/Natural Language Processing
2021. 3. 25. 23:44