일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Machine Learning
- matrix multiplication
- 딥러닝
- Language Modeling
- Data Augmentation
- Knowledge Tracing
- Residual Connection
- GPT
- math
- Transformer
- Github Copilot
- AI
- Copilot
- Private ML
- bert
- ICML
- 표현론
- Computer Vision
- Pre-training
- Knowledge Distillation
- NLP
- 동형암호
- Natural Language Processing
- 머신러닝
- 자연어처리
- Model Compression
- KT
- attention
- Deep learning
- Homomorphic Encryption
Archives
- Today
- Total
Anti Math Math Club
지극히 주관적인 Interesting papers in ICML 2021 (1) - Transformers and Attentions 본문
Machine Learning & Deep Learning/Others
지극히 주관적인 Interesting papers in ICML 2021 (1) - Transformers and Attentions
seewoo5 2021. 7. 14. 21:29몇주전에 올해 ICML에 accept된 논문들이 발표되었습니다. 그중엔 이미 다른 venue에서 봤었던 논문도 있고 (Synthesizer가 ICLR에서는 떨어졌지만 ICML에 붙었네요) 이름이 익숙한 논문(DeiT)들도 있습니다. 이 중에서 지극히 주관적이고 개인적인 판단에 의해서 오로지 제목만을 보고 재미있어보이는 논문들을 골라서 키워드별로 간단히 정리를 해보려고 했고, 가장 처음으로 검색해본 키워드가 "Transformer"와 "Attention"인데, 이 둘의 키워드를 포함하는 논문만 무려 37개가 있었습니다. ("Transformer"라는 키워드로 검색했을때는 19개가 나오는데, 여기에 "Attention"이라는 키워드로 검색하면 또 22개의 논문이 나옵니다) 원래는 글 하나에 키워드별로 간략하게 논문들을 소개하고자 했는데, attention만 해도 너무 논문이 많아서 키워드별로 글을 나눠서 쓰기로 결정했습니다. 그래서 이번 포스트는 Transformer와 Attention에 관한 논문들에 대한 n줄 요약입니다. 혹시 잘못된 내용이 있거나 추가할만한 내용이 있다면 덧글로 알려주시길 바랍니다.
- Relative Positional Encoding for Transformers with Linear Complexity 작년에는 Transformer의 O(n^2) 시간/공간 복잡도를 줄이고자 하는 많은 연구들이 나왔었는데요, 그 중에서 Linformer, LinearTransformer, Performer등은 O(n)까지 줄이는데 성공하였습니다. 하지만 이러한 efficient transformer들에 대한 positional encoding에 대해서는 많이 연구된 바가 없고, 특히 absolute positional encoding/embedding보다 더 많이 쓰이는 relative positional embedding의 경우에는 앞서 언급한 linear transformer들에 바로 적용할 수 없습니다. 이 논문에서는 학습된 positional embedding kernel(이를 일종의 covariance로 봅니다)로부터 랜덤하게 positional embedding을 선택하는 Stochastic Positional Encoding(SPE)를 제안합니다. 실험은 Long Range Arena 논문에서 제안한 task들과 Music generation, Groove continuation에 대해서 진행하였습니다.
- Catformer: Designing Stable Transformers via Sensitivity Analysis 이 논문에서는 모델이 얼마나 '민감'한지, 다시 말해서 model의 parameter와 input의 변화에 대해서 output이 얼마나 변하는지를 나타내는 sensitivity를 정의합니다. 그리고 이를 바탕으로 residual connection을 concatenation으로 대체한 Catformer를 제안합니다. 이는 기존의 transformer에 비해서 sensitivity가 더 작고, 실제로 training에서 더 안정됨을 실험으로 확인하였습니다. (특히 강화학습처럼 training이 어려운 경우에 큰 성능 향상을 보였다고 합니다.)
- CATE: Computation-Aware Neural Architecture Encoding with Transformers 딥러닝 모델을 자동으로 찾는 NAS(Neural Architecture Search)에 관한 연구입니다. NAS에서 모델의 구조를 encoding할 때 가장 많이 쓰이는 것은 각 layer를 node로, inference 관계를 directed edge로 표현한 그래프의 인접행렬을 이용하거나 MLP, GNN, RNN등의 모델을 활용하는 것인데, 이 논문에서는 transformer를 이용한 encoding 방법을 제안합니다. Transformer의 input으로는 computation이 비슷한 (parameter 숫자나 FLOPs를 기준으로) 두 architecture가 일부 token(node)이 masking된 들어오고 BERT처럼 mask된 부분을 예측하는 MLM으로 pre-training을 시킵니다. NAS-Bench-101과 NAS-Bench-301이라는 데이터셋에 대해서 실험하였습니다. (모델 architecture와 각 architecture별 모델의 정확도가 label로 붙어있는 데이터셋이라고 합니다.)
- Differentiable Spatial Planning using Transformers Spatial planning이란, 쉽게 말해서 로봇청소기가 가장 효율적으로 청소할 수 있는 경로를 찾는 류의 문제라고 생각할 수 있습니다. 고전적인 Dijkstra 알고리즘부터 CNN을 이용한 알고리즘들이 있었는데, 이 논문에서는 transformer를 이용해서 long-term dependency를 비교적 쉽게 학습할 수 있도록 합니다.
- PixelTransformer: Sample Conditioned Signal Generation 요즘 Computer Vision에 transformer를 사용하는 연구들이 쏟아져나오는 추세인데, 사실 ViT 이전에도 image Transformer나 image GPT같이 이미지를 transformer architecture를 통해서 분석하는 연구가 있었습니다. 하지만 이 모델들은 모두 좌상단부터 우하단까지의 pixel을 autoregressive하게 하나씩 생성하기 때문에 autoregressive하지 않은 예측이 어렵다는 단점이 있었는데, PixelTransformer는 pixel의 위치와 값 정보들을 한번에 encoder에 넣고, decoder에는 예측하고자 하는 pixel의 위치를 query로써 넣는 구조를 통해서 랜덤하게 주어진 몇개의 pixel을 바탕으로 전체 이미지를 생성하는것이 가능해졌습니다. 더 나아가서, 비슷한 방법으로 이미지 뿐만 아니라 1-D signal이나 비디오 합성, 다항식 interpolation도 가능하다는 것을 보여주었습니다.
- Training data-efficient image transformers & distilling through attention 제목만 보고서는 처음 보는 논문인줄 알았는데, 검색하다보니 작년 말에 많이 화제가 되었던 FAIR에서 발표한 DeiT가 이 논문이라는것을 알게 되었습니다. 기존의 ViT는 patch token과 class token을 입력으로 받았다면, DeiT는 여기에 distillation token을 하나 추가해서 이 token의 output을 바탕으로 distillation loss를 계산합니다. 그 외에는... 실험을 많이 했습니다.
- LieTransformer: Equivariant Self-Attention for Lie Groups 최근에 꽤 핫한 분야중 하나로 Geometric Deep Learning을 꼽을 수 있습니다. 딥러닝 모델들에 내제되어있는 일종의 기하학적인 대칭성을 연구하는 분야라고 볼 수 있는데, 대표적으로는 CNN이 translation invariant/equivariant하다는 사실이 있습니다. (설명하자면 너무 길어지기 때문에 기회가 된다면 나중에 더 자세히 다루도록 하고, 대신 이 분야의 떠오르는 신성이자 거의 창시자인 Taco Cohen의 책을 추천하면서 넘어가겠습니다.) 논문에서 제시하는 LieTransformer는 이름에서 알 수 있듯이 Lie group에 대한 equivariance를 만족하는 transformer이고, 핵심은 Lifting과 LieSelfAttention이라고 볼 수 있습니다. Lifting은 coordinate, feature value들의 집합으로 주어지는 input (예를들어 이미지는 각 좌표별 픽셀값들의 모임으로 볼 수 있습니다.)을 coordinate -> feature value의 feature mapping으로 본 뒤, 이를 우리가 원하는 Lie group위에 정의된 함수로 lift합니다. 그리고 나서 content/location based attention 값의 짬뽕으로 만들어지는 LieSelfAttention과 기존 transformer의 LayerNorm, residual connection, pooling등의 layer들을 거쳐서 LieTransformer가 완성됩니다. 실험은 Point cloud classification이나 Molecular property regression과 같이 roto-translation equivariance에 의해서 label이 변하지 않는 데이터에 대해서 진행하였습니다.
- ViLT: Vision and Language Transformer Without Convolution or Region Supervision 카카오에서 발표한 논문입니다. 제목에서 알 수 있듯이 이미지와 자연어를 같이 처리할 수 있는 multimodal transformer입니다. ViLT의 목적은 기존의 Vision Language Pretraining 모델들이 heavy한 visual encoder를 쓰는 문제점을 해결하는 것으로, ViT의 구조에 착안하여 image와 text모두 공통된 transformer를 통해서 처리할 수 있게 합니다. Pre-training objective로는 image-text matching (word patch alignment를 포함), BERT의 masked language modeling, whole word masking이 있습니다.
- OmniNet: Omnidirectional Representations for Transformers ViLT와 마찬가지로 CV, NLP, Speech등 여러 domain을 모두 하나의 모델로 다루는 multimodal transformer에 관한 연구입니다. 먼저 각 domain별로 peripharal network들이 입력을 embedding하고, 각 embedding output들은 모두 temporal, spatial 정보를 동시에 담도록 합니다. (domain별로 조금씩 달라집니다.) 그 다음 이 embedding들을 transformer기반의 Central Neural Processor(CNP)에 넣어 결과(들)를 얻습니다. 이때 POS-tagging, Image Captioning, Visual Question Answering, Video Activity Recognition의 4개의 objective들로 모델을 학습시킵니다.
- Synthesizer: Re-thinking Self-Attention for Transformer Models 여기 참조... ㅎㅎㅎ
- Generative Adversarial Transformers GAN + Transformer입니다. (GANformer라고 부르네요.) 이전에도 attention을 GAN에 적용한 SAGAN이 이미 있었는데, 이와 다른점을 꼽자면 기존의 연구들 역시 original transformer의 quadratic complexity때문에 애를 먹었고 GANformer는 bipartite attention을 통해서 이를 해결했다고 합니다. Bipartite attention이란 별게 아니라 query와 key/value의 주체가 다른 attention으로 기존의 transformer에 있는 encoder-decoder attention (cross attention)을 bipartite attention으로 볼 수 있습니다. 다만 여기서는 image feature와 latent 사이의 attention을 고려하고, 이 때문에 시간복잡도가 O(n^2)에서 O(mn)으로 줄어드는 효과를 보입니다.
- Which transformer architecture fits my data? A vocabulary bottleneck in self-attention Transformer의 layer 갯수(depth)와 모델의 dimension(width)에 관한 연구입니다. NLP에서 사용되던 transformer들의 depth/width의 비율이 작은데에 비해서 CV에서의 transformer들은 성능을 높이기 위해 상대적으로 depth를 키우는 경우가 많은데, 둘의 차이가 어디서 발생하는지에 대한 연구이고, 결론은 vocabulary size(좀 더 정확히 말하자면 embedding matrix의 rank)가 중요한 요인임을 보여줍니다. Vocabulary size가 작을수록(클수록) depth를(width를) 키우는것이 좋다고 합니다.
- ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases 제목만 봐서는 ViT + 약간의 CNN같지만, 정확히 말하자면 CNN을 추가적으로 사용한것은 아닙니다. ViT가 모델의 정확도면에서 CNN 모델들을 점점 능가하고 있지만, JFT같은 큰 데이터에 pre-training을 하는 등 CNN에 비해서 cost가 많이 들어간다는 단점이 있습니다. 이를 개선하기 위해서 gating mechanism이 들어간 Gated Positional Self Attention(GPSA)를 제안합니다. 이는 ViT에서 사용된 self attention과 더불어 (relative) positional attention을 같이(gating mechanism을 통해서) 사용합니다.
- Linear Transformers are Secretly Fast Weight Programmers Fast Weight Programmers(FWPs)란, 한명인 Schmidhuber가 90년대에 정의한 개념으로 neural net의 weight이 input에 의존하는 경우도 생각해보자는 것에서 나왔고, 그런 weight을 fast weight으로, 그렇지 않은(기존의) weight을 slow weight으로 정의합니다. 논문의 요지는 Linformer, LinearTransformer, Performer등의 (linear) efficient transformer들이 fast weight programmer의 패러다임 안에서 해석될 수 있고, 이를 바탕으로 deterministic parameter-free projection(DPFP)를 제안합니다. 참고로 여기에 저자가 직접 논문에 대한 해설을 한 글이 있고, (NeurIPS에 제출된것으로 보이는) 후속 논문도 있습니다.
- MSA Transformer Transformer는 정말 여러 분야에서 활용이 되는데, 단백질의 구조를 분석하는데에도 이용이 됩니다. 단백질 역시 자연어처럼 discrete한 sequence로 볼 수 있기 때문인데, language modeling을 단백질 분석에도 적용한 protein language modeling을 통한 pre-training을 통해 여러 downstream task에 대해 좋은 성능을 보여주는 몇몇 연구들이 존재합니다. 이 논문에서 저자들은 기존의 모델들이 protein sequence 하나씩만 처리할 수 밖에 없다는 문제점을 지적하고, 서로 다른 여러개의 protein sequence를 한번에 처리할 수 있는 MSA(Multiple Sequence Alignment) transformer를 제안합니다. (참고로 MSA는 원래 단백질 분석에서 통용되고 있는 용어라고 합니다.) 정말 naive하게 길이가 L인 M개의 protein sequence를 한번에 입력으로 넣어 각 token(acid)사이의 attention을 계산하기 위해서는 O((ML)^2)의 시간복잡도가 필요하지만, Axial attention을 이용하면 이를 O(M^2*L + ML^2)으로 줄일 수 있고, 더 나아가 MSA에서의 protein들이 서로 비슷한 구조를 가진다는 가정 하에 row attention을 동일하게 두면 O(ML^2)항을 O(L^2)으로 줄일 수 있습니다. Training 단계에서는 BERT의 MLM을 사용합니다.
- Generative Video Transformer: Can objects be Words? Video generation에 transformer를 적용한 연구입니다. Object Centric Video Transformer(OCVT)라는 모델을 제안했는데, 각 timestep의 image를 VAE를 이용해서 object들을 4가지 정보(object의 존재여부, 위치, 깊이, 그외)를 갖는 latent vector들로 embedding을 한 뒤, 이를 transformer에 넣습니다. 이렇게해서 만들어진 output latent vector를 VAE의 decoder에 넣어 다음 step의 예측된 image를 만들어내는데, 학습을 시킬때는 실제 다음 step의 latent vector와 transformer로 만들어진 latent vector가 얼마나 align 되어있는지를 Hungarian algorithm을 이용해 alignment loss를 계산해서 모델을 update합니다.
- Thinking Like Transformers Transformer의 computational model이 무엇일까라는 질문에 대한 답을 하는 연구입니다. RNN의 경우, finite state automata가 compuational model이 된다고 알려져 있습니다. 이 논문에서는 transformer의 computational model로써 Restricted Access Sequence Processing Language(RASP)를 제안합니다. RASP는 sequence의 index와 token을 입력으로 받아 여러가지(?)를 하는 언어라고 볼 수 있는데, 그 중에서 중요한 연산은 transformer의 attention map에 해당하는 select(query와 key sequence를 받아서 n by n boolean 행렬을 만드는 연산)와 attention matrix와 value를 곱하는 연산에 해당하는 aggregate(matrix와 sequence를 받아 sequence를 만드는 연산)이고, 몇몇 synthetic tasks에서 RASP를 바탕으로 attention map에 일종의 가이드를 주게 되면 보다 작은 transformer로도 거의 100%에 근접하는 정확도를 얻을 수 있음을 보여줍니다.
(약간 답을 알려주는 것 같긴 하지만...) - PipeTransformer: Automated Elastic Pipelining for Distributed Training of Large-scale Model 커다란 transformer를 효율적으로 훈련시키고 서빙하는 방법론에 대한 논문입니다. 이쪽에 대해서는 아는게 전혀 없어서... 넘어가겠습니다...ㅠ
- TFix: Learning to Fix Coding Errors with a Text-to-Text Transformer 코드의 error를 고쳐주는 transformer입니다. T5 모델을 기반으로 ESLint를 통해서 제공되는 error type, error message, error context를 바탕으로 고쳐진 코드를 return하는것을 목표로 합니다. Github에 있는 550만개의 commit들을 바탕으로 T5를 fine-tuning했다고 하네요.
- Evolving Attention with Residual Convolutions 보통 transformer의 interpretability는 attention map을 바탕으로 하는 경우가 많습니다. 두 token 사이의 attention값이 클 수록 둘 사이의 관계가 크다고 해석하는것이죠. 하지만, 이게 항상 잘 되는것도 아니고, 더군다나 각 layer의 attention이 따로 학습되기 때문에 어떤 layer의 attention map을 봐야하는지도 의문입니다. Evolving Attention은 이를 해결하기 위해서 이전 layer의 attention을 다음 layer의 attention에 포함시키는(더해주는) 방법을 이용합니다. 또한, 단순히 self attention을 이용하는것이 아니라 여기에 2D convolution을 한번 더 적용해서 원래 attention과 linear combination을 취해줍니다.
- AutoAttend: Automated Attention Representation Search 기존 transformer의 attention에서는 입력을 query, key, value로 만들 때 linear layer를 이용하는데, Neural Architecture Search(NAS)를 이용해서 더 나은 attention 구조를 찾는 연구입니다.
- The Lipschitz Constant of Self-Attention Neural network의 Lipschitz continuity는 gradient exploding이나 invertible neural network등 여러가지와 연관되어 있습니다. 이 논문에서는 Attention layer가 Lipschitz 하지 않다는 것을 증명하고, 대안으로써 L2 Attention을 제안합니다. L2 Attention은 query와 key의 dot product가 아닌 L2-distance를 기반으로 attention score를 정의합니다. 또한, L2 Attention의 Liptschitz constant를 1보다 작게 만듦으로써 invertible한 transformer block을 만들고, 기존 transformer에 비해서 좀 더 training이 stable한 것을 확인했습니다.
- Perceiver: General Perception with Iterative Attention 어떤 문제를 머신러닝/딥러닝으로 푼다고 할 때, 모델의 선택은 domain의 특징에 많이 의존하게 됩니다. 예를 들어 이미지 분류를 할 때는 spatial equivariance/invariance를 가지고 있는 CNN을 쓰고, 자연어를 다룰때는 sequential modeling을 할 수 있는 RNN이나 transformer를 쓰죠. (물론 vision transformer도 있지만...) Perciever는 이러한 domain에 의존하지 않는 일반적인 transformer 구조로, byte array(naive input에 대응됩니다)와 latent array사이의 cross-attention과 내부의 latent transformer로 이루어져 있습니다.. 이때 latent array의 dimension을 줄이거나, cross attention과 latent transformer의 weight들을 share하는 등의 방법으로 모델의 complexity를 줄입니다.
- I-BERT: Integer-only BERT Quantization BERT의 quantization에 관한 연구입니다. 기존의 transformer quantization 방법론들이 simulated quantization을 썼다는 점을 지적하고, quantization/dequantization의 과정이 필요없는 찐 int8 quantized BERT를 제안합니다.
- SparseBERT: Rethinking the Importance Analysis in Self-attention Efficient attention에 관한 연구들 중 특히 full attention 대신 적절한 masking을 사용해 일부의 attention만 사용하는 계열의 연구입니다. (대표적으로는 strided attention과 fixed attention을 사용하는 OpenAI의 Sparse Transformer가 있습니다.) 기존의 discrete한 masking을 continuous하게 대체해서 sparse한 masking 자체가 학습이 가능하도록 합니다.
- Attention is not all you need: pure attention loses rank doubly exponentially with depth 이 논문도 저번에 블로그에서 소개한 적이 있습니다. 참고하세요 ㅎㅎ
- SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks 여기서의 attention은 transfromer의 attention이 아닌, 실제 사람의 '주의'에 좀 더 가까운 의미의 attention입니다. 신경과학에서 영감을 받았다고 하고, 특정 energy function을 먼저 정의한 뒤 이를 최소화하는 attention weight을 계산하는 Simple Attenion Module(SimAM)을 제안합니다. 이를 기반으로 CNN의 성능을 향상시켰습니다.
- Is Space-Time Attention All You Need for Video Understanding? 찾아보니 이미 인용이 40번이 넘게 되어있는 논문이었습니다. Convolution-free한, 오로지 transformer만 사용해서 video classification을 하는 모델이고, spatial attention과 temporal attention을 따로 고려하는 divided attention을 제안합니다. 이는 둘을 한꺼번에 고려하는 기존 spatio-temporal attention에 비해 더 효율적이면서 성능도 좋은 편이라고 합니다.
- Learning Self-Modulating Attention in Continuous Time Space with Applications to Sequential Recommendation 추천에 관한 논문입니다. Sequential한 추천에 attention mechanism을 이용한 연구는 이미 많이(?) 있었는데, 이 논문에서는 이벤트가 발생한 timestep들에 대해서 discrete한 sequence로만 보는 것이 아니라 continuous한 time까지 같이 고려하는 self-modulating attention을 제안하는데, dot-product attention을 기반으로 하고 있습니다.
- Bayesian Attention Belief Networks 정말 간단하게 요약하자면 Bayesian neural network + Transformer라고 볼 수 있습니다. Decoder에는 Gamma 분포를, encoder에는 Weibull 분포를 사용하였고, decoder에서 gamma 분포의 shape parameter를 모델링 할 때 layer별 hierarchical한 구조를 가질 수 있도록 모델링합니다. 기존의 deterministic한 모델들(pretrain된 모델들 포함)을 BABN으로 바꾸는것도 어렵지 않다고 하고, GLUE/SQuAD나 adversarial attack등에 대해서 모두 기존보다 높은 성능을 보여주었습니다.
- Lipschitz normalization for self-attention layers with application to graph neural networks 22번 논문과 같이 읽으면 좋습니다. Graph Attention Network처럼 attention을 GNN에도 적용하는 연구들이 있는데, 이들의 문제점은 layer를 많이 쌓을수록 attention의 gradient exploding문제가 발생해서 성능이 낮아집니다. GNN에서 layer를 늘리는 것은 멀리 떨어진 node들 사이의 관계를 더 잘 캡쳐할 수 있게 해주기 때문에 layer를 적게 쓸 수 밖에 없다는 것은 치명적인 단점일 수 있는데, 이를 해결하기 위해서 attention score의 Lipschitz constant를 조절해주는 Lipschitz normalization을 제안합니다. 실제로 다수의 그래프 관련 task에서 높은 성능 향상을 보여줍니다.
- Trees with Attention for Set Prediction Tasks Transformer 관련은 아니고, random forest나 gradient boosting과 같은 tree-based 모델에 attention mechanism을 적용한 논문입니다.
- EL-Attention: Memory Efficient Lossless Attention for Generation Transformer로 machine translation같이 autoregressive하게 decoding을 할 때에 중복되는 계산을 없애기 위해서 caching을 이용하는 경우가 많은데, cache의 크기와 memory movement를 줄일 수 있는 EL-Attention을 제안합니다. (computational complexity를 줄이고자 하는 많은 연구들과는 방향이 조금 다릅니다.) Vanilla attention과 달리 hidden state vector를 따로 key, value로 project하지 않고 그대로 사용하고, 그렇게 되면 encoder의 output만 cache하면 되게 됩니다. 기존의 transformer 계열 모델들에 바로 적용할 수 있다는 장점이 있습니다.
- You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling 긴 sequence를 효율적으로 처리하는 계열의 연구입니다. Softmax가 들어가있는 self-attention을 bernoulli sampling을 통해 근사함으로써 O(n^2)대신 O(n)의 시간복잡도로 계산하는데, 이때 Reformer에서도 사용되었던 Locality Sensitive Hashing(LSH)를 이용해서 query와 key vector 사이의 collision을 정의합니다. Reformer와 다른 점은 (거의) 한번의 hash 계산만으로 attention weight matrix를 근사할 수 있습니다. 또한, Reformer는 LSH를 통해 주어진 query와 비슷한 상위 몇개의 key만 뽑아내서 attend하지만 전체 attention matrix를 만들어내지는 않습니다.
- Poolingformer: Long Document Modeling with Pooling Attention 마찬가지로 긴 sequence를 효율적으로 처리하는 계열의 연구입니다. Longformer와 마찬가지로 long document modeling을 목표로 하는데, sliding window를 이용한 local attention과 pooling을 통해 큰 사이즈의 window를 가진 attention을 처리하는 pooling attention을 결합하였습니다. Pooling 방법으로는 max pooling, mean pooling, lightweight dynamic convolution (LDConv) pooling 세가지를 비교하였습니다.
비록 자세히 요약을 하지는 못했지만, 이 글을 읽고 있는 분들에게 약간이나마 ICML 논문들을 탐색하는데에 도움이 되었으면 합니다.