Data_study/Paper_Review

[논문 리뷰] Multimodal Transformer for Unaligned Multimodal Language Sequences

onsemiro 2023. 5. 24. 17:09

과연 Multimodal 없이 하나의 분야 모델로 개발을 하여 성과를 높인다는게 옳은 것인가의 고민이 생겼다. 이미지 분석으로만 감성을 판단하고 자연어처리로만 우리 일상 생활의 의사소통을 주고 받는다는 것은 무조건 한계가 있을 것이다. 이런 한계를 깰 수 있는 것이 바로 multi modal이다. multi modal은 다양한 modality를 각 모델에 넣어서 학습시킨 후, 결과값을 concat시켜 학습하는 과정을 말한다. Transformer 모델을 활용하여 multi modal을 진행하는 논문을 리뷰해 보겠다.

 

Multimodal Transformer for Unaligned Multimodal Language Sequences

Yao-Hung Hubert Tsai, Shaojie Bai, Paul Pu Liang, J. Zico Kolter, Louis-Philippe Morency, Ruslan Salakhutdinov

 

Abstract

인간의 언어는 종종 multimodal이다. 즉 얼굴 표정과 청작의 행동, 자연어의 융합으로 이해할 수 있다.

multimodal human language time-series data에는 두가지의 challenge가 있다.

 

1. 각 modality로부터 sequence의 다양한 비율로 인해 정렬이 되지 않는 선천적인 데이터

2. modality들을 거친 elements 간에 긴 범위의 의존성

 

본 논문에서, Multimodal Transformer(MulT)을 소개한다.

명백히 정렬된 데이터 없이 end  - to - end 방식으로 위 문제를 일반적으로 다룬다.

 

이 모델의 핵심은 쌍방향 cross modal attention이다.

즉, 특유의 time steps를 거친 multimodal sequences 간에 상호작용을 집중하고 하나의 modality에서 다른 modality로의 흐름을 잠재하여 적응한다.

 

 

Introduction

인간의 언어는 말하는 언어 뿐만 아니라 시각적이고 청각적인 modality의 비언어적인 행동도 진행된다.

이런 다채로운 정보는 우리가 인간의 행동과 의도를 이해하는데 도움을 준다.

비록 modality들 간의 이질성이 이런 인간의 언어를 분석하는데 어려움을 증가시켜도 말이다.

다시 말해, multimodal language sequences는 종종 정렬되지 않는 성질을 보여준다. 그리고 modalities간의 긴 term의 의존성을 추론하는 것을 요구한다.

본 논문에서는 위 문제를 Multimodal Transformer(MulT)로 해결한다.

 

Multimodal Transformer(MulT)는 end to end model로 기본적인 Transformer network를 확장한 것이다.

(정렬되지 않은 multimodal 흐름으로 부터 직접적으로 표현한 것을 배우기 위해서)

이 모델의 핵심은 The Crossmodal attention module이다.

즉, 정렬의 필요성 없이 다른 modality들로부터 하나의 modality의 특성을 반복하며 보강함으로써 전체 발언의 scale로 The Crossmodal interactions를 집중한다.

 

Related Works

Human Multimodal Language Analysis

Human Language는 time-series를 포함하고 따라서 융합한 시간 다양성 signal들을 요구한다.

최근 논문은 일찍이 다수의 modality들로 부터 입력값의 특징을 집중하는 fusion approach를 사용했다.

그리고 단일 modality로부터 학습한 것을 비교함으로써 상승된 performance를 보여줬다.

 

더 최근에는 몇가지들의 논문으로 부터, human multimodal language의 representations 학습의 진보된 model을 보여줬다.

하지만, 이런 이전 접근법은 단어의 resolution으로 거의 정렬된 multimodal language의 전제에 의존한다. 그리고 오직 short term multimodal 상호작용만 고려한다.

 

우리의 method는 정렬하지 않는 전제를 요구하고 전체적인 sequences의 scale에서 crossmodal interactions를 정의한다.

 

 

Transformer Network

Transformer network는 처음 기계번역(NMT) task에서 먼저 소개됐다. self-attention을 사용한 encoder-decoder 구조의 모델

 

이 논문은 NMT Transformer에서 강한 영감을 받아 multimodal setting으로 확장시킨다.

NMT Transformer는 쌍방향의 translation을 target text의 소스에서 부터 포커스하는 반면에, human multimodal language time series는 모든 것을 다루듯이 매우 다른 빈도를 가진 각 modality의 sequence와 함께 별개의 word embedding을 갖는다.

그러므로, 한 양식에서 다른 양식으로 명시적으로 번역하는 것이 아니라, 주의를 통해 여러 양식에 걸쳐 요소를 잠재적으로 조정할 것을 제안한다.(이는 매우 어려울 수 있다)

 

MulT는 그래서 encoder-decoder 구조를 갖지 않는다. 그러나 낮은 수준의 features를 attention하는 쌍으로 양방향의 crossmodal attention block들의 여러 스택으로 구성한다.

 

 

 

Prosposed Method

 

이 섹션에서는 정렬되지 않은 multimodal language sequence를 정렬하기 위해 제안한 multimodal transformer(MulT)에 대해 설명한다.

MulT는 여러 방향의 Pairwise crossmodal transformers로부터 feed forward fusion process를 통해 multimodal timeseries를 병합한다.

구체적으로, 각 crossmodal transformer는 두 modality의 기능을 학습하여 다른 소스 modality의 low-level 특성으로 target modality를 반복적으로 강화하는 역할을 한다.

따라서 MulT 구조는 이런 crossmodal Transformer를 사용하여 모든 쌍의 modality들에게 입힌다.

 

 

Crossmodal Attention

두개의 modality인 각 차원으로 지정된 ⍺와 β로 두 sequence를 고려한다. (잠재적으로 정렬되지 않은)

T와 d는 sequence 길이를 표현하기 위해 그리고 dimension을 보여주기 위해 사용된다.

crossmodal information을 융합한 좋은 방법은 modality들을 거친 A latent adaptation을 제공하고 있다.

 

Y⍺는 Q⍺와 같은 length를 갖고 있다.

구체적으로 score matrix인 softmax를 연산하는데 루트 dk를 나눠줘서 scale시킨다.

(i,j)th entry는 modality β의 j-th time step에서 modality ⍺의 i-th time step으로 받아진 attention을 측정한다.

그러므로, Y⍺의 i-th time step는 Vβ의 가중치된 summary다.

이것을 a single head crossmodal attention이라고 말한다.

 

crossmodal attention computation의 residual connection을 추가했다.

그리고 self-attention을 사용하지 않고 각 crossmodal attention block을 low-level feature sequence로 부터 직접 채택한다.

 

Overall Architecture

 

Temporal Convolutions

 

❖temporal convolutions 목적

  • 입력시퀀스의 각 요소가 주변 요소를 충분히 인식할 수 있게 위해 입력시퀀스를 1D temporal convolution layer를 통과시킨다.
  • 다른 modality들 간에 같은 demention d를 사용하도록 하여 dot product를 진행할 수 있도록 하는 역할

 

 

반응형