일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- attention
- math
- KT
- 딥러닝
- Copilot
- AI
- Residual Connection
- 동형암호
- 자연어처리
- Private ML
- Github Copilot
- matrix multiplication
- 머신러닝
- Natural Language Processing
- Machine Learning
- Pre-training
- GPT
- Computer Vision
- Language Modeling
- Homomorphic Encryption
- NLP
- Knowledge Distillation
- ICML
- Data Augmentation
- 표현론
- Model Compression
- Knowledge Tracing
- Deep learning
- bert
- Transformer
- Today
- Total
목록Machine Learning (12)
Anti Math Math Club
저번 포스팅에서는 Copilot을 이용해서 학부 수준의 수학 문제를 푸는 AI에 대해서 소개를 했습니다. 이번에는 AI가 실제로 학부 수준을 넘어선, 연구 수준의 문제를 푸는 데에 도움을 준 케이스에 대해서 이야기하고자 합니다. (저번처럼 문제를 푼게 아니라, 푸는데에 도움을 주었다는것이 중요합니다. 제 생각에는 실제로 연구 수준의 증명을 생성하는 AI가 나오려면 최소 10년은 더 있어야 할 것 같습니다.) 보통 사람들이 생각하는 AI는 스스로 생각하고 걸어다니고(?) 사람을 지배하는(??)걸 떠올리는 경우가 많은데, 실상은 몇년 전까지만 해도 강아지와 고양이 사진을 잘 분류해내는 숫자 덩어리에 불과했습니다. 이제는 고화질의 이미지와 비디오를 만들어내고 번역도 하고 글도 쓰고 작곡도 하고... 할 수 있..
최근에 현생(?)을 사느라 좀 바쁘기도 했고, Vision Transformer가 나온 이후로 너무 Transformer 관련 논문만 쏟아지는 것 같아서 한동안 딥러닝 논문을 안 읽고 있었는데, 최근에 대학 수준의 수학문제를 딥러닝으로 풀었다는 논문이 나왔다고 해서 블로그를 켰습니다. 구글이나 페이스북같은 기업에서 쓴 논문이 아니고 MIT, Columbia, Harvard, Waterloo에서 쓴 논문인데, 저자 중에서 유일하게 눈에 들어오는 사람은 가장 마지막에 있는 Gilbert Strang이었습니다. 학부때 봤던 선형대수 교재를 쓴 MIT 교수님인데 요즘 이쪽으로 관심을 갖고 계시다는 소식은 어디선가 들었지만 여기서 보게 되니 신기하네요. 처음에 논문을 다운받으니 114페이지라고 해서 이걸 리뷰해야..
오랜만에 논문 리뷰 글을 쓰네요. 페이스북을 하다가 도저히 지나칠 수 없는 제목의 논문을 발견해서 읽어보았습니다. 제목은 Multiplying Matrices Without Multiplying, 즉 곱하기 안쓰고 행렬 곱하기인데, 이게 뭔 개소린가 싶어서 abstract를 읽어보니 (결과만 보면) 100배정도 더 빨라졌다고 하여 좀 더 자세히 읽어보았습니다. 이 논문에서의 문제 상황은 정말 일반적인 두 행렬을 곱하는 상황이 아닌, 조금 더 특수하지만 그래도 머신러닝을 하다보면 많이 접할 수 밖에 없는 상황을 가정합니다. 그리고 정확한 곱을 계산하는게 아닌 approximate matrix multiplication을 다룹니다(가장 대표적인 approximate matrix multiplication 알..
몇주전에 올해 ICML에 accept된 논문들이 발표되었습니다. 그중엔 이미 다른 venue에서 봤었던 논문도 있고 (Synthesizer가 ICLR에서는 떨어졌지만 ICML에 붙었네요) 이름이 익숙한 논문(DeiT)들도 있습니다. 이 중에서 지극히 주관적이고 개인적인 판단에 의해서 오로지 제목만을 보고 재미있어보이는 논문들을 골라서 키워드별로 간단히 정리를 해보려고 했고, 가장 처음으로 검색해본 키워드가 "Transformer"와 "Attention"인데, 이 둘의 키워드를 포함하는 논문만 무려 37개가 있었습니다. ("Transformer"라는 키워드로 검색했을때는 19개가 나오는데, 여기에 "Attention"이라는 키워드로 검색하면 또 22개의 논문이 나옵니다) 원래는 글 하나에 키워드별로 간략하..
머신러닝과 딥러닝이 각광을 받으면서 그에 대한 수요 역시 급증하게 되었는데요, (방대한) 데이터에 기반을 두고 있는 ML/DL 기술들을 이용함에 있어서 데이터의 보안에 대해서 한번쯤은 생각해 볼 필요가 있습니다. ImageNet과 같은 공개된 벤치마크 데이터셋의 경우 모든 연구자들이 자유롭게 연구에 사용할 수 있는 반면에, 의료 인공지능에서 사용되는 환자들의 데이터나 GPT-3와 같은 거대한 언어 모델을 사전학습 시키는데에 사용된 말뭉치(text corpus)의 경우 개인정보와 관련된 민감한 데이터가 포함되어있기 때문에 쉽게 구할수도, 구했다고 해도 쉽게 사용할 수도 없습니다. 작년에 발표된 Extract Training Data from Large Language Models라는 논문에서는 사전학습된 ..
이번에는 기존에 이 블로그에서 리뷰하던 대부분의 딥러닝 논문들과는 성격이 좀 다르지만 굉장히 흥미로운 결과를 담고 있는 논문을 리뷰하고자 합니다. 저는 지금은 인공지능 관련 일을 하고 있지만 본업은 수학이며 학위를 진행중인 상태입니다. 그래서인지 인공지능 공부를 하면서 가장 궁금했던것은 인공지능이 정말로 논리적인 '사고'라는것을 할 수 있는지, 특히 수학적인 명제에 대한 '증명'을 스스로 할 수 있는지에 대해서 의문을 자주 가졌습니다. 예전에는 정말 머나먼 이야기라고 생각했지만, 요즘에는 생각이 조금씩 바뀌고 있습니다. 최근에 Lean이라는 언어를 이용해 수학의 매우 기본적인 공리들부터 시작해서 최신 이론들까지 컴퓨터로 formalize하려는 시도가 여러 사람들에 의해서 이루어지고 있고, 이 프로젝트의 ..
이번 포스팅에서는 EMNLP 2019에 accept된 Patient Knowledge Distillation for BERT model compression이라는 논문을 리뷰하도록 하겠습니다. Knowledge Distillation(KD)이란 커다란 모델(teacher model)의 학습된 '지식'을 작은 모델(student model)로 '증류'하는 방법으로 모델의 크기를 줄이는 것을 말합니다. Hinton의 Distilling the Knowledge in a Neural Network라는 논문에서 처음 제안되었는데, 다음과 같은 순서로 진행합니다. 먼저 teacher model을 학습시킵니다. student model을 학습시킬 때, loss를 실제 학습에 사용되는 loss(예를들어, BCE lo..
딥러닝의 발전에 있어서 중요한 발견 중 한가지는 ResNet의 발명이라고 할 수 있습니다. 매우 deep한 뉴럴넷을 학습시키기위해서 input의 정보를 그대로 output에 더해줌으로써 모델은 input과 output의 "차이"에 해당하는 부분만 학습할 수 있도록 해주는 것 입니다. 실제로 Residual Connection을 사용했을 대 vanishing gradient problem도 어느정도 해결이 된다고 알려져 있습니다. 하지만 시간이 지날수록 점점 더 크고 깊은 모델을 사용하게 되면서, Residual Connection만으로는 부족하다고 느껴지고 이를 개선한 여러가지 모델들과 방법론이 등장하게 됩니다. 예를 들어서, Batch Normalization이나 Layer Normalization과 ..