일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 딥러닝
- matrix multiplication
- math
- Pre-training
- 머신러닝
- attention
- Data Augmentation
- 표현론
- GPT
- Copilot
- Homomorphic Encryption
- 동형암호
- AI
- Language Modeling
- Knowledge Tracing
- bert
- 자연어처리
- Transformer
- Model Compression
- Natural Language Processing
- Machine Learning
- Private ML
- Knowledge Distillation
- ICML
- NLP
- Deep learning
- KT
- Github Copilot
- Residual Connection
- Computer Vision
- Today
- Total
목록전체 글 (26)
Anti Math Math Club
이번 포스팅에서는 올해 EMNLP에 나온 F^2-Softmax: Diversifying Neural Text Generation via Frequency Factorized Softmax에 대해서 리뷰하겠습니다. Introduction Text generation이란 말 그대로 문장을 생성하는 task를 말합니다. 대화 시스템, 기계번역, 요약 등 여러가지에 사용되는 NLP의 기본적인 task중 하나라고 생각할 수 있습니다. 기존의 text generation의 대부분은 language modeling, 즉 문장의 분포를 autoregressive하게 모델링하는 방법으로 모델을 훈련시키고, 이때 loss는 negative log likelihood를 사용합니다. 즉, likelihood를 최대화하는 방향..
이번 포스팅에서는 2018년도 NeurIPS에서 best paper award를 받은 Neural Ordinary Differential Equation(이하 NODE, Neural ODE, ODE-Net, ODE Network)이라는 논문에 대해서 리뷰하도록 하겠습니다. Ordinary Differential Equation(상미분방정식, ODE)란 미분 방정식 중에서 구하려는 함수가 하나의 변수에만 의존하는 경우를 말합니다. 일반적으로 다음과 같은 형태를 가집니다. 예를 들어서, 간단하면서 구체적으로 해를 구할 수 있는 경우로는 f가 z에 대한 행렬곱으로 주어지는 경우, 즉 인 경우이고 이때 해는 로 주어집니다. (행렬의 지수에 관해서는 위키피디아를 참고하시길 바랍니다.) ODE는 왜 갑자기 나오는걸..
IJCAI 2020에서 발표된 Knowledge Tracing관련 pre-training에 대해서 다룬 Improving Knowledge Tracing via Pre-training Question Embedding라는 논문입니다. 지금 다니고 있는 회사의 테크 블로그에 리뷰를 써 놓아서, 링크만 걸어두고 따로 추가적으로 리뷰는 하지 않겠습니다. 링크 본문을 참고해주시길 바랍니다! (clap도 많이 눌러주세요 ㅎㅎ)
이번 포스팅에서는 ICLR 2020 Honorable Mention Award를 받은 Generative Pretraining from Pixels라는 논문에 대해서 알아보도록 하겠습니다. Computer Vision에서는 ImageNet을 이용한 pre-training & fine-tuning이 거의 표준으로 자리잡고 있는 반면, NLP에서는 Wikipedia같은 거대한 corpus가 있다고 해도 sentiment나 POS tag같은 label이 붙어 있는 데이터는 많지 않기 때문에 pre-training을 하는 것이 쉽지 않습니다. 하지만, GPT와 BERT를 기점으로 한 self-supervised learning은 이러한 데이터를 활용해서 모델을 똑똑하게 pre-train하는 것을 가능하게 해 주..
이번 포스트에서는 (제가 알기로는) Consistency Regularization이 처음 소개된 논문인 Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning이라는 논문에 대해서 알아봅시다. Consistency Regularization이란, 간단히 말해서 모델의 Input에 augmentation을 가해서 새로운 input을 만들었을 때, output (prediction)이 별로 변하지 않아야 한다는 가정을 바탕으로 모델을 regularize하는 방법 입니다. 예를 들어서, 이미지를 분류하는 CNN이 하나 있을 때, 기존에 있던 강아지 사진을 뒤집거나 돌리는 등의 작업을 해서 ..
이번 포스트에서는 qDKT: Question-centric Deep Knowledge Tracing에 대해서 알아보도록 하겠습니다. DKT, DKVMN등을 비롯한 대부분의 Knowledge Tracing 모델들은 학생의 knowledge를 skill-level로써 모델링합니다. 즉, 학생의 과거의 interaction = (skill_id, correctness)를 바탕으로 다음 문제의 skill에 해당하는 정오답을 예측합니다. 하지만, 같은 skill을 가지는 문제일지라도 문제 자체는 다르기 같은 skill의 서로 다른 문제들을 하나로 엮는 것은 정보를 잃는다고 생각할 수 있습니다. 또한, 문제의 skill이라는 것이 모든 데이터셋에 대해서 항상 존재한다고 볼 수도 없습니다. (일반적으로 skill은 ..
보통 머신러닝 혹은 딥러닝 연구에서 어떤 문제를 풀 때 데이터가 부족한 경우 해결책으로써 가장 많이 생각하는 방법은 data augmentation 혹은 transfer learning (pre-training & fine-tuning) 입니다. 전자는 기존에 존재하는 데이터를 특정 방식으로 변형하여 비슷한 가상의 데이터를 만들어내는 것이고, 후자는 같은 도메인이지만 훨씬 더 크기가 큰 데이터에 대해서 모델을 먼저 훈련시킨 뒤 (pre-training), 원래의 데이터에 맞게 파라미터를 미세하게 조정해주는 (fine-tuning) 방법입니다. CV(Computer Vision)에서는 data augmentation 기법으로는 주어진 이미지를 자르고 붙이고 늘이고 뒤집는 등의 방법이 있고, transfer..
이번 포스트에서는 이번 ICML2020에 accept된 Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention이라는, 제목부터 강력한 논문에 대해서 알아보겠습니다. 최근에 Transformer의 O(N^2)의 time & memory complexity를 줄이고자 하는 연구들이 굉장히 활발하게 이루어지고 있는데, 이 논문 역시 그런 연구들 중 하나로 볼 수 있습니다. (나중에 비슷한 계열의 다른 연구들도 하나씩 소개하도록 하겠습니다.) 그 중에서 유명한 것으로는 시간복잡도를 O(N\sqrt(N))으로 줄인 Sparse Transformer나 O(N log N)으로 줄인 Reformer가 있습니다. 하지만 이 역시 매우 매..