Keisuke Ogaki

Dwango Tokyo

Results 26 issues of


                                            Keisuke Ogaki

HoloGAN: Unsupervised learning of 3D representations from natural images

**学習データは2D画像からのみで、3D表現(いろいろな方向へのレンダリング)を得る** 論文本体・著者 ------------------ * Thu Nguyen-Phuoc, Chuan Li, Lucas Theis, Christian Richardt, Yong-Liang Yang * https://arxiv.org/abs/1904.01326 解きたい問題 ------------------ * 2D画像だけのデータセットから3D表現を得る * ランダムなzと目的の方向θをいれて画像生成する。z固定でθを動かせば色んな方向の画像が生成できる新規性 ------------------ * 高品質な様々な向きの画像を、学習データが2D画像だけから生成できる実装 ------------------ |![image](https://user-images.githubusercontent.com/17926501/55610480-f7d6dd80-57bd-11e9-8031-70909b808e04.png)| |---|...

Computer Vision

Exploring Data Augmentation for Improved Singing Voice Detection with Neural Networks

**singing voice detectionタスクにおいて、様々な入力音声のDataAugmentationを試した報告** 論文本体・著者 ------------------ * Jan Schlüter, Thomas Grill * ISMIR 2015 * http://www.ofai.at/~jan.schlueter/pubs/2015_ismir.pdf 解きたい問題 ------------------ * 音声データから、ボーカル歌唱部分をアノテーションする問題(singing voice detection) * 入力は対数スペクトログラム、出力は各時間ごとにそこが歌唱音声or notの2値新規性 ------------------ * いろんなDataAugmentationを試した。最終的にいろいろなDAを混ぜることでSoTAを達成実装 ------------------...

Audio Processing

LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts

**bilibiliデータセットを用いて、動画 + 近傍のコメント -> 新たなコメントを生成** 論文本体・著者 ------------------ * https://arxiv.org/pdf/1809.04938.pdf * Shuming Ma, Lei Cui, Damai Dai, Furu Wei, Xu Sun * コード: https://github.com/lancopku/livebot * AAAI 2019 解きたい問題 ------------------ *...

Natural Language Processing

Machine Theory of Mind

**Machine Teory of Mind: ふるまいから、他のエージェントのポリシーを推定する。間違いも模倣できる** 論文本体・著者 ------------------ * https://arxiv.org/abs/1802.07740 * Neil C. Rabinowitz, Frank Perbet, H. Francis Song, Chiyuan Zhang, S.M. Ali Eslami, Matthew Botvinick * DeepMind 解きたい問題 ------------------ |![](https://upload.wikimedia.org/wikipedia/en/a/ac/Sally-Anne_test.jpg)|...

Reinforcement Learning

Discovery of Latent 3D Keypoints via End-to-end Geometric Reasoning

**教師なし学習で2D画像から3Dのkeypointを取り出す。学習には同一物体を他の視点から撮影したペアを用いる** 論文本体・著者 ------------------ * https://keypointnet.github.io/ * Supasorn Suwajanakorn Noah Snavely Jonathan Tompson Mohammad Norouzi * Google AI 解きたい問題 ------------------ 新規性 ------------------ * 2D画像から3Dkeypointまでをend-to-endで教師なしで学習した * 剛体変形によるロスをうまく取り入れて、視点変更に頑健なkeypointを得ることができる実装 ------------------ |![image](https://user-images.githubusercontent.com/17926501/45667509-6c189f00-bb54-11e8-8280-ba00ec997466.png)| |---| |論文...

Synthesizing Images of Humans in Unseen Poses

**pose2img系の最新。ポーズ変化は各関節の座標変換であるという手がかりから、前景背景分離・セグメンテーション・inpainting・pose2imgを同時に解く** 論文本体・著者 ------------------ * Synthesizing Images of Humans in Unseen Poses * https://arxiv.org/abs/1804.07739v1 * Guha Balakrishnan, Amy Zhao, Adrian V. Dalca, Fredo Durand, John Guttag * MIT * CVPR2018 解きたい問題...

Computer Vision

Deep Outdoor Illumination Estimation

**一枚の写真から光源環境マップを推定。空を低次元のパラメタ化することで推定しやすくする。学習データはパノラマ画像のみ** 論文本体・著者 ------------------ * http://vision.gel.ulaval.ca/~jflalonde/projects/deepOutdoorLight/index.html * Yannick Hold-Geoffroy, Kalyan Sunkavalli, Sunil Hadap, Emiliano Gambaretto and Jean-François Lalonde * ラヴァル大学, Adobe * CVPR2017 解きたい問題 ------------------ |![image](http://vision.gel.ulaval.ca/~jflalonde/projects/deepOutdoorLight/img/teaser.png)| |---| |論文 Fig. 1 より|...

Computer Vision

Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Descent

**MTurkでアノテータに与えるタスクを工夫することで，より少ないアノテーションで問題が解ける良質なアノテーションを得る** 論文本体・著者 ------------------ * https://arxiv.org/abs/1711.07950 * FAIR * ICLR2018 解きたい問題 ------------------ * MTurkで、少ない金額で良い(=汎化性も高い)学習ができるアノテーションを得たい新規性 ------------------ * 他のアノテータが与えたアノテーションと **戦わせる** アイディア実装 ------------------ * 評価値 = 既存のデータセットでの精度 + 未知の、他のアノテータが作ったデータセットでの精度 * 学習には自分の作ったデータセット +...

Machine Learning

Synthesizing Programs for Images using Reinforced Adversarial Learning

**画像等を直接生成するのではなく，"生成プロセス"を生成する．強化学習+GANのフレームワーク．** 論文本体・著者 ------------------ * Yaroslav Ganin, Tejas Kulkarni, Igor Babuschkin, S.M. Ali Eslami, Oriol Vinyals * https://arxiv.org/abs/1804.01118 * Deepmind * 記事: Learning to write programs that generate images * https://deepmind.com/blog/learning-to-generate-images/...

Computer Vision

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

**異なるポリシーを持つ複数エージェントの強化学習を達成。競争的なタスクも解ける。** 論文本体・著者 ------------------ * https://arxiv.org/abs/1706.02275 * NIPS2017 * Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel, Igor Mordatch * OpenAI 解きたい問題 ------------------ 新規性 ------------------ * actorとcriticの見える情報が非対称(criticがより広い入力を持つ)な学習方法 * これにより、独立なポリシーの学習を安定して行える...