paper_readings
paper_readings copied to clipboard
CharManteau: Character Embedding Models For Portmanteau Creation
Seq2Seqでかばん語生成
- animal + girl = animirl
- vocal + android = vocandroid (ちょっと強そう.voidというのもあって吹いた)
- singapore + english = singlish (スゴイ)
論文本体・著者
- https://arxiv.org/abs/1707.01176
- デモ: http://kinshasa.lti.cs.cmu.edu:5000/portmanteau
解きたい問題
新規性
- 少ない(1624)portmanteauを使って翻訳モデルを学習することができた
実装
- 入力の文字列x(x1+";"+x2) -> 出力のかばん語y という翻訳の枠組みで解ける
- 普通に考えると: Encode(x) -> Decode(y) というモデルになる.ただしx,yのペアワイズデータが全然手に入らない
- 提案手法では: ベイズ則に従い argmax P(y|x) = argmax P(x|y) P(y) とスコアを付ける
- y=portmanteau自体の正しい単語らしさ(Portmanteauらしさではない)を利用することができる
- P(y)は134K wordで学習した
- なお,突飛なアイデアではなく,翻訳や音声認識でよくやること
- P(x|y)はattentional Seq2Seqでモデル化
- portmanteauは,元の語がわかりやすいように作られるはず,という仮定から,このモデルが学習可能だと考えられる
- y=portmanteau自体の正しい単語らしさ(Portmanteauらしさではない)を利用することができる
- 十分な学習データではないので,80%ずつ重複ありの10セット学習してアンサンブルにしている
実験・議論
- 一致率
- クロスバリデーションで,約50%が最大スコアのportmanteau = 正解portmanteauだった
- 主観評価
- baseline(関連論文)と比べて,提案手法の方が良いというのを2択問題として主観評価実験してる
読んだ中での不明点などの感想
- 面白いことに,1.Intro, 2.Proposed, ... 6. Related Work だった.読みやすい
関連論文
- Aliya Deri and Kevin Knight. 2015.
How to make a frenemy: Multitape FSTs for portmanteau generation.
In Proceedings of NAACL-HLT. pages 206–210- おなじ問題設定の先行研究
- https://www.isi.edu/natural-language/mt/make-frenemy.pdf
- FSMとして解いてる