Shotaro Ishihara
Shotaro Ishihara
# どんなもの? 株式リターンに対するツイートの影響を会社レベルで分析できるデータセットを構築・公開 arxiv: https://arxiv.org/abs/2006.09723 dataset: https://github.com/ImperialNLP/stockreturnpred
# どんなもの? 新しいファクトチェック手法の提案。通常は知識データベースを参照し事実判定するが、事前学習済モデルで穴埋め問題を解いた結果と照らし合わせて一致するかを見る。実験・考察を見るに性能はイマイチだが、事前学習の面白い活用方法。 https://arxiv.org/abs/2006.04102
# どんなもの? 最初にBERT&伝統的なNLPアプローチ(TF-IDFなど)を紹介。次に、TF-IDF語彙に対するBERTの挙動を実験を通じて議論しようとしている。 https://arxiv.org/abs/2005.13012
# どんなもの? 会話検索における表形式データの要約と探索。クラウドソーシングによるデータセット構築とベンチマークの作成。 https://arxiv.org/abs/2005.11490
# どんなもの? 2020年3〜4月に、COVID-19に関連するTwitter投稿2200万件を収集し、LDAでトピック分析 https://arxiv.org/abs/2005.12830
# どんなもの? BERTの応用で「スケッチ」の埋め込み表現を獲得。認識・検索タスクなどで性能を検証している。 https://twitter.com/ak92501/status/1262918131867058177?s=20 https://arxiv.org/abs/2005.09159
# どんなもの? 1年先の国際移住を予測するタスクで、Googleトレンドのデータを用いてLSTMでモデリング。論文の貢献は線形モデルをLSTMに置き換えたところっぽいけど、Googleトレンドを特徴量にする部分が面白かった。 https://arxiv.org/abs/2005.09902
# どんなもの? 機械学習を用いた医療画像解析に関する人口統計学的な偏りの議論。(1)AUCが0.83の分類器も、年齢や性別で区切ると0.76-0.91の間で性能が変動(2)年齢や性別を明示的に特徴量とすると偏りが改善。 https://arxiv.org/abs/2005.10050
# どんなもの? 「何が書かれているか」「誰が読んでいるか」などを特徴量として、報道機関の政治的偏りと報道の正確性の予測モデルを作成。 PDF: https://arxiv.org/abs/2005.04518 GitHub: https://github.com/ramybaly/News-Media-Reliability
# どんなもの? ニュース見出しが持つ「フレーミング効果」検知タスク。英語版の研究を多言語化&多ラベル化。米国の銃暴力問題に関連するニュースを題材に実験。 PDF: https://derrywijaya.github.io/Multi_label_and_Multilingual_News_Framing_Analysis.pdf GitHub: https://github.com/feyzaakyurek/newsframing