paper_readings icon indicating copy to clipboard operation
paper_readings copied to clipboard

CharManteau: Character Embedding Models For Portmanteau Creation

Open kogaki opened this issue 7 years ago • 0 comments

Seq2Seqでかばん語生成

  • animal + girl = animirl
  • vocal + android = vocandroid (ちょっと強そう.voidというのもあって吹いた)
  • singapore + english = singlish (スゴイ)

論文本体・著者

  • https://arxiv.org/abs/1707.01176
  • デモ: http://kinshasa.lti.cs.cmu.edu:5000/portmanteau

解きたい問題

新規性

  • 少ない(1624)portmanteauを使って翻訳モデルを学習することができた

実装

  • 入力の文字列x(x1+";"+x2) -> 出力のかばん語y という翻訳の枠組みで解ける
    • 普通に考えると: Encode(x) -> Decode(y) というモデルになる.ただしx,yのペアワイズデータが全然手に入らない
    • 提案手法では: ベイズ則に従い argmax P(y|x) = argmax P(x|y) P(y) とスコアを付ける
      • y=portmanteau自体の正しい単語らしさ(Portmanteauらしさではない)を利用することができる
        • P(y)は134K wordで学習した
        • なお,突飛なアイデアではなく,翻訳や音声認識でよくやること
        • P(x|y)はattentional Seq2Seqでモデル化
        • portmanteauは,元の語がわかりやすいように作られるはず,という仮定から,このモデルが学習可能だと考えられる
  • 十分な学習データではないので,80%ずつ重複ありの10セット学習してアンサンブルにしている

実験・議論

  • 一致率
    • クロスバリデーションで,約50%が最大スコアのportmanteau = 正解portmanteauだった
  • 主観評価
    • baseline(関連論文)と比べて,提案手法の方が良いというのを2択問題として主観評価実験してる

読んだ中での不明点などの感想

  • 面白いことに,1.Intro, 2.Proposed, ... 6. Related Work だった.読みやすい

関連論文

  • Aliya Deri and Kevin Knight. 2015. How to make a frenemy: Multitape FSTs for portmanteau generation. In Proceedings of NAACL-HLT. pages 206–210
    • おなじ問題設定の先行研究
    • https://www.isi.edu/natural-language/mt/make-frenemy.pdf
    • FSMとして解いてる

kogaki avatar Jul 31 '17 06:07 kogaki