[논문 리뷰]

[논문 리뷰] ViLBERT 해석

딥러닝 도전기 2022. 4. 3. 21:24

1-1

1-1 : 이미지, 비디오 혹은 3D환경에서 자연어를 생성하거나 반응함으로써 시각적인 이해를 증명할 수 있는 시스템을 향한 꾸준한 발전이 이루어져 왔습니다.

이러한 접근 방식은 vision-and-language라는 공통 배너 아래에서 언급되게 되었습니다.

 

1-2

1-2 : 그러나, 자연어와 시각적 자극을 조정해야하는 일반적인 요구사항에도 불구하고, 시각 및 언어작업에 대한 접근 방식은 이러한 기능을 얻기 위한 통일된 기반이 부족합니다.

대신, 주요 전략은 대규모 pre-trained모델로 시작한 다음 downstream방법으로 학습하는 방법입니다.

 

1-3

 

1-3 : <pretrained model의 설명 및 장점>

(visual grounding : 이미지에서 질문에 해당되는 부분을 Bounding box로 표시)

 

1-4

1-4 : <pretrained model의 한계점 및 방안>

이러한 vision-and-language의 이해는 vision-and-language 작업에 필수적이며, 이들이 어떻게 연관이 있는가 하는 것 또한 동일하게 중요합니다.

예를 들어, downstream vision-and-language 모델이 "비글" 또는 "셰퍼드"와 같은 특정 문구와 관련짓지 못한다면 개 품종의 완벽한 시각적 표현은 거의 쓸모가 없습니다.

따라서 이러한 연결을 학습하고 광범위한 vision-and-language 작업에 활용할 수 있는 비전 및 언어 작업에 활용할 수 있는 visual grounding을 위한 모델을 개발하는 것에 관심이 있습니다.

 

1-5

 

반응형