山西良典，田中一星，井本桂右，山下洋一：音声エンタテインメントからのウェブ音声マイニングの可能性，情報処理学会論文誌，61(11)，pp.1708-1717, 2020年11月 – Laboratory of Content-oriented Computational Culture & Arts

ウェブ上には様々なマルチメディアで構成されたユーザ参加型のエンタテインメントコンテンツが存在している．これらのエンタテインメントコンテンツからは，統制された条件に従った映像や音声を取得できる可能性がある．本稿では，音声データの活用に焦点を当て，ウェブ上のエンタテインメントコンテンツからの統制された環境下での音声データの収集をウェブ音声マイニングとして提案する．ウェブ音声マイニングの基本的な手続きのフレームワークを示し，ウェブ上のエンタテイメントコンテンツから音声データセットを取得した．音声コンテキスト認識とt-SNE法を用いた2次元空間上への可視化を通して，取得した音声データセット中の発話に見られる音響特徴の傾向について基礎的な考察を行った．その結果，各発話は課題コンテキストごとに複数の発話者で共通の音響特徴を示す傾向であることを確認し，ユーザ発信型のエンタテインメントコンテンツ中の音声をラベル付き音声データとして研究用途に応用できる可能性を示した．

タグ: Journal