paper_readings
paper_readings copied to clipboard
Video Highlights Detection and Summarization with Lag-Calibration based on Concept-Emotion Mapping of Crowd-sourced Time-Sync Comments
Time-sync comments:時間に同期したコメント (ニコニコ動画, 哔哩哔哩,etc フレームごとのコメント)を用いた動画ハイライト検出
論文本体・著者
- Video Highlights Detection and Summarization with Lag-Calibration based on Concept-Emotion Mapping of Crowd-sourced Time-Sync Comments
- 論文: https://arxiv.org/pdf/1708.02210.pdf
- EMNLP 2017 Workshop on New Frontiers in Summarization
- 著者の発表スライド: https://drive.google.com/file/d/0ByRn2qS9cc0-aE5ybVZERlNWbUE/view
解きたい問題
-
動画からハイライト検出する. ➡︎低レベル特徴量(画像, 音声)を用いた動画要約には限界がきてる. 抽象的なレベルの意味情報を伝統的な手法では常に獲得できるとは限らない →動画に付随するテキスト情報を組み込む必要がある! →フレームごとにコメントがついているTime-sync commentsを利用したハイライト検出を試みる.
-
Time-sync comment の問題点の解決
- コメントのラグ(本来のショットよりあとにコメントがくる現象)
- コメントは短く, 一部のコメントはショットと関係ない.
新規性
-
Time-sync commentsの問題点の解決 そのために語彙的連鎖とLag-Calibrationを導入した点.
-
感情, トピックの集中度合いを用いたハイライトの検出(?)
実装
- 意味的に近い単語を保存する概念辞書の構築
![]() |
|---|
| 発表スライド 8枚目 より |
- 概念辞書に基づいて意味的, 時間的に近いコメントを連鎖させる(Lexical chain)
![]() |
|---|
| 発表スライド 9枚目 より |
- コメントの連鎖に基づくコメントの遅れを校正する(Lag-calibration)
![]() |
|---|
| 発表スライド 10枚目 より |
- 各ショットの校正されたコメントを用いて{感情, トピック}の集中度合いを計算
- ハイライトを生成
実験・議論
-
データセット: Bilibili.com
-
ハイライト検出の結果
![]() |
|---|
| 論文 Table.4 より |
等間隔(Uniform)やランダム(Random)よりコメントの盛り上がる箇所:Spike-selection:コメント量が最大のショットを選択 がスコアが高いのは妥当である. また, E:感情, T:トピックの集中, LがLag-Calibrationの導入を加えることによるSpike+L+E+T が一番良かった.
- ハイライト要約の結果
![]() |
|---|
| 論文 Table.5, Table.6 より |
- ショット長の影響について
![]() |
|---|
| 論文 Figure2., Figure.3 より |
読んだ中での不明点などの感想
- time-sync commentsはハイライト検出に使えそう. ただし, 現状はコメント情報のついたデータは動画投稿サイト(ニコ動や哔哩哔哩 etc)や生配信サイト(Twitch, Youtube live 等) ぐらい, Twitter等のSNS実況も上手くすれば...
- ドメイン知識のない場合に"動画のみ"を用いたハイライト検出や動画要約には限界がきている. そこで, 動画情報としてタイトルや動画の説明文を用いた研究はすでに多数存在する. フレームに付随したコメント情報を用いた動画要約の研究は動画要約において新しい可能性を示した.
- Lag-Calibration について本手法だと語彙的連鎖の最初に合わせているが, その連鎖の中心とかだと精度は変わるのかきになる.
- ハイライトを次のように定義する場合にtime-sync commentsは確かにハイライト検出タスクにすごくマッチしてて良さ👏
ハイライトとは動画の中で感情の強さが高く, 最も記憶に残るショットのことである. (M. Xu, Jin, Luo, & Duan,2008)
関連論文
- Reading the Videos: Temporal Labeling for Crowdsourced Time-Sync Videos Based on Semantic Embedding http://staff.ustc.edu.cn/~cheneh/paper_pdf/2016/Guangyi-Lv-AAAI.pdf コメント間の時系列的相関を利用してコメントを意味的ベクトルに表現するためのDeep structured semantic model(T-DSSM)の設計を行い, コメントを利用して動画のハイライトにラベルづけを行う.





