일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 딥러닝
- bert
- 동형암호
- Homomorphic Encryption
- AI
- Private ML
- Data Augmentation
- 자연어처리
- Language Modeling
- Computer Vision
- ICML
- Knowledge Tracing
- Residual Connection
- matrix multiplication
- GPT
- Github Copilot
- Model Compression
- Knowledge Distillation
- KT
- Deep learning
- Machine Learning
- Pre-training
- Copilot
- NLP
- attention
- 표현론
- Transformer
- Natural Language Processing
- math
- 머신러닝
- Today
- Total
목록Natural Language Processing (4)
Anti Math Math Club
딥러닝의 발전에 있어서 중요한 발견 중 한가지는 ResNet의 발명이라고 할 수 있습니다. 매우 deep한 뉴럴넷을 학습시키기위해서 input의 정보를 그대로 output에 더해줌으로써 모델은 input과 output의 "차이"에 해당하는 부분만 학습할 수 있도록 해주는 것 입니다. 실제로 Residual Connection을 사용했을 대 vanishing gradient problem도 어느정도 해결이 된다고 알려져 있습니다. 하지만 시간이 지날수록 점점 더 크고 깊은 모델을 사용하게 되면서, Residual Connection만으로는 부족하다고 느껴지고 이를 개선한 여러가지 모델들과 방법론이 등장하게 됩니다. 예를 들어서, Batch Normalization이나 Layer Normalization과 ..
이번 포스팅에서는 작년 12월에 arXiv에 등장하여 꽤나 화제가 되었던 논문인 Extract Training Data from Large Language Models라는 논문을 리뷰하도록 하겠습니다. 제목에서 알 수 있듯이 이 논문의 요지는 훈련된 language model로부터 training data를 역으로 추출하는 방법에 대한 이야기를 다루고 있습니다. 여기서 다루는 주제의 중요성은 논문 첫 페이지에 있는 Figure 1로부터 바로 알 수 있습니다. 위의 그림에서 볼 수 있듯이 GPT-2에 특정 prefix를 집어넣은 뒤 뒤에 올 token들을 생성하게 되면 training set의 일부인 누군가의 개인정보가 그대로 나올 수 있다는 것입니다. (GPT-2의 traning set은 논문에서 볼 수..
이번 포스팅에서는 올해 EMNLP에 나온 F^2-Softmax: Diversifying Neural Text Generation via Frequency Factorized Softmax에 대해서 리뷰하겠습니다. Introduction Text generation이란 말 그대로 문장을 생성하는 task를 말합니다. 대화 시스템, 기계번역, 요약 등 여러가지에 사용되는 NLP의 기본적인 task중 하나라고 생각할 수 있습니다. 기존의 text generation의 대부분은 language modeling, 즉 문장의 분포를 autoregressive하게 모델링하는 방법으로 모델을 훈련시키고, 이때 loss는 negative log likelihood를 사용합니다. 즉, likelihood를 최대화하는 방향..
보통 머신러닝 혹은 딥러닝 연구에서 어떤 문제를 풀 때 데이터가 부족한 경우 해결책으로써 가장 많이 생각하는 방법은 data augmentation 혹은 transfer learning (pre-training & fine-tuning) 입니다. 전자는 기존에 존재하는 데이터를 특정 방식으로 변형하여 비슷한 가상의 데이터를 만들어내는 것이고, 후자는 같은 도메인이지만 훨씬 더 크기가 큰 데이터에 대해서 모델을 먼저 훈련시킨 뒤 (pre-training), 원래의 데이터에 맞게 파라미터를 미세하게 조정해주는 (fine-tuning) 방법입니다. CV(Computer Vision)에서는 data augmentation 기법으로는 주어진 이미지를 자르고 붙이고 늘이고 뒤집는 등의 방법이 있고, transfer..