일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- ICML
- 딥러닝
- matrix multiplication
- Computer Vision
- KT
- Natural Language Processing
- math
- GPT
- Knowledge Tracing
- Copilot
- 표현론
- Homomorphic Encryption
- Model Compression
- Private ML
- Machine Learning
- Github Copilot
- NLP
- 머신러닝
- bert
- Transformer
- attention
- Residual Connection
- Data Augmentation
- 자연어처리
- AI
- Language Modeling
- Knowledge Distillation
- 동형암호
- Pre-training
- Deep learning
- Today
- Total
목록Transformer (9)
Anti Math Math Club
최근에 현생(?)을 사느라 좀 바쁘기도 했고, Vision Transformer가 나온 이후로 너무 Transformer 관련 논문만 쏟아지는 것 같아서 한동안 딥러닝 논문을 안 읽고 있었는데, 최근에 대학 수준의 수학문제를 딥러닝으로 풀었다는 논문이 나왔다고 해서 블로그를 켰습니다. 구글이나 페이스북같은 기업에서 쓴 논문이 아니고 MIT, Columbia, Harvard, Waterloo에서 쓴 논문인데, 저자 중에서 유일하게 눈에 들어오는 사람은 가장 마지막에 있는 Gilbert Strang이었습니다. 학부때 봤던 선형대수 교재를 쓴 MIT 교수님인데 요즘 이쪽으로 관심을 갖고 계시다는 소식은 어디선가 들었지만 여기서 보게 되니 신기하네요. 처음에 논문을 다운받으니 114페이지라고 해서 이걸 리뷰해야..
몇주전에 올해 ICML에 accept된 논문들이 발표되었습니다. 그중엔 이미 다른 venue에서 봤었던 논문도 있고 (Synthesizer가 ICLR에서는 떨어졌지만 ICML에 붙었네요) 이름이 익숙한 논문(DeiT)들도 있습니다. 이 중에서 지극히 주관적이고 개인적인 판단에 의해서 오로지 제목만을 보고 재미있어보이는 논문들을 골라서 키워드별로 간단히 정리를 해보려고 했고, 가장 처음으로 검색해본 키워드가 "Transformer"와 "Attention"인데, 이 둘의 키워드를 포함하는 논문만 무려 37개가 있었습니다. ("Transformer"라는 키워드로 검색했을때는 19개가 나오는데, 여기에 "Attention"이라는 키워드로 검색하면 또 22개의 논문이 나옵니다) 원래는 글 하나에 키워드별로 간략하..
이번 포스팅에서는 EMNLP 2019에 accept된 Patient Knowledge Distillation for BERT model compression이라는 논문을 리뷰하도록 하겠습니다. Knowledge Distillation(KD)이란 커다란 모델(teacher model)의 학습된 '지식'을 작은 모델(student model)로 '증류'하는 방법으로 모델의 크기를 줄이는 것을 말합니다. Hinton의 Distilling the Knowledge in a Neural Network라는 논문에서 처음 제안되었는데, 다음과 같은 순서로 진행합니다. 먼저 teacher model을 학습시킵니다. student model을 학습시킬 때, loss를 실제 학습에 사용되는 loss(예를들어, BCE lo..
딥러닝의 발전에 있어서 중요한 발견 중 한가지는 ResNet의 발명이라고 할 수 있습니다. 매우 deep한 뉴럴넷을 학습시키기위해서 input의 정보를 그대로 output에 더해줌으로써 모델은 input과 output의 "차이"에 해당하는 부분만 학습할 수 있도록 해주는 것 입니다. 실제로 Residual Connection을 사용했을 대 vanishing gradient problem도 어느정도 해결이 된다고 알려져 있습니다. 하지만 시간이 지날수록 점점 더 크고 깊은 모델을 사용하게 되면서, Residual Connection만으로는 부족하다고 느껴지고 이를 개선한 여러가지 모델들과 방법론이 등장하게 됩니다. 예를 들어서, Batch Normalization이나 Layer Normalization과 ..
이번에는 짧고 간단한 논문인 Improving BERT with Syntax-aware Local Attention이라는 논문을 리뷰하도록 하겠습니다. 최근 NLP의 동향은 커다란 트랜스포머 모델을 pre-training시킨 뒤 원하는 downstream task에 fine-tuning하는 것 입니다. GPT와 BERT를 시작으로 다양한 pre-training 기법과 다양한 크기의 트랜스포머들이 세상에 나왔습니다. 그 중에서는 attention mechanism을 개선해서 좀 더 성능을 높이거나 혹은 연산량을 줄이는 방향의 연구가 많습니다(Reformer, Longformer, Sparse Transformer, Synthesizer 등). 이 논문에서는 syntax 정보를 이용해서 attention m..
이번 포스팅에서는 작년 12월에 arXiv에 등장하여 꽤나 화제가 되었던 논문인 Extract Training Data from Large Language Models라는 논문을 리뷰하도록 하겠습니다. 제목에서 알 수 있듯이 이 논문의 요지는 훈련된 language model로부터 training data를 역으로 추출하는 방법에 대한 이야기를 다루고 있습니다. 여기서 다루는 주제의 중요성은 논문 첫 페이지에 있는 Figure 1로부터 바로 알 수 있습니다. 위의 그림에서 볼 수 있듯이 GPT-2에 특정 prefix를 집어넣은 뒤 뒤에 올 token들을 생성하게 되면 training set의 일부인 누군가의 개인정보가 그대로 나올 수 있다는 것입니다. (GPT-2의 traning set은 논문에서 볼 수..
이번 포스트에서는 이번 ICML2020에 accept된 Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention이라는, 제목부터 강력한 논문에 대해서 알아보겠습니다. 최근에 Transformer의 O(N^2)의 time & memory complexity를 줄이고자 하는 연구들이 굉장히 활발하게 이루어지고 있는데, 이 논문 역시 그런 연구들 중 하나로 볼 수 있습니다. (나중에 비슷한 계열의 다른 연구들도 하나씩 소개하도록 하겠습니다.) 그 중에서 유명한 것으로는 시간복잡도를 O(N\sqrt(N))으로 줄인 Sparse Transformer나 O(N log N)으로 줄인 Reformer가 있습니다. 하지만 이 역시 매우 매..
이번 포스트에서는 Google에서 올해 초에 발표하고 ICLR2020에 accept된 Reformer: The Efficient Transformer에 대해서 알아보도록 하겠습니다. Synthesizer 리뷰에서도 언급했었지만, 2017년에 Google에서 발표한 Transformer는 NLP를 포함해서 music generation, image generation, knowledge tracing, time series prediction등 여러가지 seq2seq task에서 state-of-the-art의 성능을 보여주고 있습니다. CNN 모델들이 그렇듯이, NLP 혹은 다양한 seq2seq 문제를 해결하기 위해서 점점 더 큰 Transformer를 사용하게 되고, 최근에 Microsoft에서 발표한..