paper_readings
paper_readings copied to clipboard
Unsupervised Neural Machine Translation
対訳データセット無しで機械翻訳
論文本体・著者
- https://arxiv.org/abs/1710.11041
- Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho
- ICLR under review
解きたい問題
- 機械翻訳
- ただし,実験したのはドイツ語<->英語とフランス語<->英語
新規性
- 対訳データセットなし!
実装
![]() |
---|
論文 Fig. 1 より |
- 共通のEncoderをトレーニングして、Decoderはそれぞれ別、というのでAuto-encodingするというわかりやすいアイディア
学習に利用したメソッド
- denoising auto-encoder
- noiseにロバストに学習させることがattentionの獲得に寄与する
- back translation
- forwardモードで生成した疑似サンプルを、元の言語に戻すように学習する
- attentionが、言語依存じゃなくなるような工夫
- forwardモードで生成した疑似サンプルを、元の言語に戻すように学習する
実験・議論
- ターゲット言語は少数データで、他の言語のデータセットをたくさん使って性能向上が可能