WHAT WE DO on November
2023年11月17日から18日に東京都文京区の東京大学工学部4号館を会場に開催された「第10回コミック工学研究会」でB4の南出さんが発表しました
はじめに
山西研究室B4の南出です.2023年11月17日から18日に東京都文京区の東京大学工学部4号館を会場に開催された「第10回コミック工学研究会」での研究発表について報告いたします.私は,11月18日のセリフというセッションにて,「キャラクタのセリフに表れる音変化の傾向の可視化」というタイトルで発表しました.
研究概要
漫画は,セリフや説明文などのテキスト情報と登場人物や背景などの画像情報を用いて物語を伝えるエンタテインメントです.Web上で漫画の配信・蓄積が可能になったことで閲覧可能な漫画の数は増加し続けており,膨大な量の漫画の中からユーザが自らの興味や関心に沿った漫画を探し出すことは難しいです.メタデータや,1部分のテキスト,画像を用いた従来の情報検索や情報推薦では,漫画の内容に踏み込んだ検索や推薦は難しく,ユーザの多様なニーズに応えるには至っていないため,物語内容の情報獲得が必要となります.好みの性格のキャラクタが登場する作品は読者の好みに合う可能性が大きく,似たような状況でも性格によって物語の展開は大きく変化するため,キャラクタの性格が好みの漫画を発見するための物語内容の情報であると考えます.キャラクタの性格を推定するための一つの要素として,漫画内のテキスト情報のほとんどの割合を占めるキャラクタのセリフに着目します.キャラクタのセリフを,発話行為によって相手に伝達する事柄である「内容」とキャラクタを特徴付ける言い回しや語尾である「表現」の2種類の観点に分け,キャラクタ特有の「内容」や「表現」からキャラクタの性格を推定します.本研究では,「表現」を検出して出現数を集計し,出現した「表現」の割合を要素とする多次元ベクトルとして「表現」の傾向を表す手法を提案します.そして,キャラクタ間でのベクトル類似度の算出,3次元マッピングすることで,セリフ内に使用される「表現」が似ているキャラクタを発見可能にします.このように,セリフの「表現」に着目したキャラクタ検索の可能性を検討します.
対象とするデータは,アニメのメインキャラクタを分析対象とし,アニメ初登場話のセリフに着目します.ここで,キャラクタのセリフ情報を収集するために,映像作品ストリーミング配信サービスNetflixに収録されているアニメの字幕を参照しました.字幕データを取得するアニメタイトルは,キャラ属性王国に掲載されているキャラクタが登場する作品としています.今回のデータセットの作成で字幕データを取得したアニメタイトルは,Netflixで2022年に放送されたアニメとしました.これらのアニメに付与される字幕データを手作業で収集し,1キャラクタずつ初登場話のセリフを画面上に表れる1文を1発話として抜き出し,記録しました.結果として,45作品,87キャラクタのデータセットが作成されました.
入力されたセリフへの前処理を行ったうえで,音変化表現(元の形から一部の音が変化して派生したと思われる表現)の検出規則を参照し,音変化表現の名称などを出力します.検出規則は112種類作成し,検出に使用しました.
検出結果から音変化表現の出現数を集計し,出現した音変化表現の割合を要素とする112次元のベクトルを算出します.得られた多次元ベクトルは主成分分析で次元削減したうえで,ベクトル間のコサイン類似度を算出し,使用された音変化表現の傾向が類似するキャラクタを発見可能にします.また,3次元に次元削減したベクトルを用いて空間上に10クラスタに色分けし,マッピングすることで使用された「表現」の傾向の近さを可視化します.
上の表に,分析対象とした87キャラクタのコサイン類似度上位15組を示しています.コサイン類似度の値が最高のペアは,「黒崎一護」と「信」でした.また,「黒崎一護」「信」「竜崎桜乃」「鈴木入間」「緑谷出久」の5キャラクタはそれぞれ類似度が高く,3次元マッピングでも同じクラスタに位置しているため,関連性があると考えました.使用した音変化表現を確認すると5キャラクタとも文末に「っ」が挿入される「文末促音挿入」を最も多く使用していました.「黒崎一護」と「信」は戦闘描写が多く描かれているため,攻撃時の掛け声として「文末促音挿入」を多く使用していました.また,2番目に多く使用した音変化表現も同じでした.「竜崎桜乃」「鈴木入間」「緑谷出久」は驚きや,言い淀む場合などで「文末促音挿入」を多く使用していました.「白銀御行」「司波深雪」「アルベド」「諸葛孔明」の4キャラクタもそれぞれ類似度が高く,3次元マッピングでも同じクラスタに位置しているため,関連性があると考えました.使用した音変化表現を確認すると4キャラクタとも「せぬ」が「せん」になるような「終止音便形」を最も多く使用していました.「司波深雪」「アルベド」「諸葛孔明」は「~ありません」のような丁寧な謝罪,否定として,「白銀御行」は「気にせんが」のような偉そうな言葉遣いとして「終止音便形」を使用していました.
「黒崎一護」と「信」のように直感的に類似しているとみられるキャラクタ同士に高い類似度が認められたことから,音変化表現を用いることでセリフ中の「表現」が似ているキャラクタの類似度を計算できる可能性が示唆されました.一方で,気合を入れる「はぁっ!」や口ごもる「あっ…」の「っ」のような違いはテキスト情報からは判別できず,直感にそぐわない類似キャラクタが抽出されてしまうことも確認されました.
音変化表現としては同一であっても,どのように発話されるかや発話意図といった情報までは分析できないため,セリフの「内容」やテキスト以外の特徴量,会話の流れなどのコンテクスト情報の導入が課題となります.
おわりに
「第10回コミック工学研究会」での発表は,非常に貴重な経験となりました.私は今回が初の研究発表であり,それが学会発表でしたので非常に緊張しました.幸いなことに議論が白熱し,自分では考え付かなかった貴重なご意見を多く得ることが出来ました.また,他の方の研究発表を聞くことができ,自分では考えもつかない興味深い研究にも触れることができました.論文執筆,発表資料作成,発表練習を通して,他人に物事を伝える大変さや,物事を伝えるコツを学ぶことができ,自らの成長を感じることができました.
text: エンピツ舎