[논문 리뷰]/[VQA]

[논문리뷰-VQA] Bilinear Attention Network

딥러닝 도전기 2022. 7. 22. 20:32

[PDF] 

 

Bilinear Attention Networks

Attention networks in multimodal learning provide an efficient way to utilize given visual information selectively. However, the computational cost to learn attention distributions for every pair of multimodal input channels is prohibitively expensive. To

arxiv.org

[Github]

 

GitHub - jnhwkim/ban-vqa: Bilinear attention networks for visual question answering

Bilinear attention networks for visual question answering - GitHub - jnhwkim/ban-vqa: Bilinear attention networks for visual question answering

github.com

 

이번 포스팅에서는 SKT-Brain의 김진화님의 논문인 Bilinear Attention Network에 대한 포스팅을 진행하도록 하겠습니다.

 

Abstract 번역

  Attention network는 multimodal learning에서 주어진 이미지 정보를 선택적으로 활용하는데 효과적이다. 그러나, 모든 입력값에 대하여 attention distribution을 학습하는 것은 엄청나게 많은 계산 비용이 든다. 이러한 문제를 해결하기 위하여 co-attention을 사용하는데, co-attention은 multimodal input(이미지, 텍스트) 사이의 상호작용을 무시한 각 modality에 대한 attention distribution을 학습한다.

  본 논문에서는 vision-language정보를 원활히 사용하기 위해 bilinear attention distribution을 찾는 bilinear attention networks(BAN)을 제안한다. (bilinear을 뭐라고 해석해야할 지 모르겠네요. 댓글로 피드백 주시면 감사하겠습니다.) Low-Rank bilinear pooling은 두 채널의 joint representation을 추출하는 반면, BAN은 두 입력 채널의 상호작용을 고려한다. 또한, 우리는 BAN의 8개의 attention map을 효율적으로 활용하기 위해 Residual network의 변형을 제안한다.

 

 

 

 

 

 

반응형