paper-log icon indicating copy to clipboard operation
paper-log copied to clipboard

Mask and Infill: Applying Masked Language Model to Sentiment Transfer

Open codertimo opened this issue 4 years ago • 0 comments

어떤 내용의 논문인가요? 👋

  • sentiment style-transfer를 문제를 풀 때 기존 RNN 기반의 encoder-decoder 구조는 먼거리의 단어나 깊은 의미를 파악하기 어려워서, 만족스러운 문장을 scatch 부터 (모든 토큰을) generation 하기 어려웠습니다.
  • 이를 해결하는 가장 간단한 방법은 문장을 처음부터 generation 하는 것이 아닌 sentiment 적인 단어만 변경하는 방법입니다. 이는 Text Infilling or Cloze 테스크와 유사한데, 이런 테스크들은 BERT 를 이용해서 해결할 수 있습니다.
  • 본 논문에서는 "Mask and Infill" 라는 2개의 step 으로 style transfer 문제를 해결하고자 합니다.
  • mask step 에서는 sentiment 에 해당되는 단어를 분리하여 masking 을 합니다.
  • infill 에서는 Masked LM 을 Conditional MLM 문제로 변경하여 단순히 masking 된 토큰을 예측하는 것이 아닌, context나 sentiment attribute에 종속된 token이 예측될 수 있도록 합니다.
  • 두개의 리뷰 데이터셋을 이용해서 평가하였으며, 정량 정성적 평가에서 모두 SOTA를 달성하였습니다.

Abstract (요약) 🕵🏻‍♂️

This paper focuses on the task of sentiment transfer on non-parallel text, which modifies sentiment attributes (e.g., positive or negative) of sentences while preserving their attribute-independent content. Due to the limited capability of RNNbased encoder-decoder structure to capture deep and long-range dependencies among words, previous works can hardly generate satisfactory sentences from scratch. When humans convert the sentiment attribute of a sentence, a simple but effective approach is to only replace the original sentimental tokens in the sentence with target sentimental expressions, instead of building a new sentence from scratch. Such a process is very similar to the task of Text Infilling or Cloze, which could be handled by a deep bidirectional Masked Language Model (e.g. BERT). So we propose a two step approach "Mask and Infill". In the mask step, we separate style from content by masking the positions of sentimental tokens. In the infill step, we retrofit MLM to Attribute Conditional MLM, to infill the masked positions by predicting words or phrases conditioned on the context and target sentiment. We evaluate our model on two review datasets with quantitative, qualitative, and human evaluations. Experimental results demonstrate that our models improve state-of-the-art performance.

이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔

  • word 단위의 변경만으로 style transfer 를 했을 때 얼마나 유의미한 결과를 뽑을 수 있는지 알 수 있습니다.
  • Conditional MLM을 구현한 방법을 알아 볼 수 있습니다.
  • sentiment 단어를 찾아서 masking 하는 부분을 로직을 모델을 통해서 한 것인지, 레이블링 데이터로 masking 한 것인이 알아보고 싶습니다.

레퍼런스의 URL을 알려주세요! 🔗

https://arxiv.org/abs/1908.08039

codertimo avatar Jan 08 '20 10:01 codertimo