【参加報告】秋山 明日香:BERTopicを用いた漫画のあらすじに対する特性表現の検討,ARG 第20回Webインテリジェンスとインタラクション研究会,2024年12月

はじめに

 関西大学の秋山明日香です.2024年12月1日~3日に行われた第20回ARGWebインテリジェンスとインタラクションで行った研究発表について報告いたします.

研究概要

 この研究では,漫画作品の特徴を直感的に捉えるための特徴表現手法を検討しました.漫画作品を読者の感性にもとづいて検索するためには,ジャンルよりも具体的に,そしてあらすじ本文よりも抽象的に特徴表現する必要があります.特性表現を取得するための提案手法を用いて14,106 件の漫画のあらすじからアトリビュートの生成を行いました.そして,提案手法によって生成されたアトリビュートの有用性と問題点を考察し改善案を議論しました.

研究背景

 現代の日本のエンタテインメントではアニメや漫画が中心的な役割を担っており,それに伴って年々作品数が増加しています.そして,発生する問題として,読者が自身の好みの作品を見つけにくくなったり,新作やあまり知名度が高くない作品が埋もれてしまったりする可能性があります.これらの問題を解決する方法の一つとして,作品検索手段を充実させることが挙げられます.

従来の作品検索手段の一つとしてジャンルが活用されていると思います.しかし,ジャンルだけでは大まかなカテゴリー分けでしか検索することができないため,読者が読みたいと思えるような作品を見つけ出すことが困難だと思います.

そのため,作品をジャンルより具体的に,単語より抽象的に表現したもの(例:頭脳バトル,青春群像劇,幸せあふれる夫婦コメディー)を用いることで作品検索がより行いやすくなるのではないかと考えました.本研究では,ジャンルより具体的に,単語より抽象的に表現したものを“アトリビュート”と定義することとします.

提案手法

  1. あらすじ集合を文単位へ分割 
  2. BERTopicを用いたあらすじ文集合のトピックへの分類 
  3. LLMを用いた各トピックに対するアトリビュートの付与

 各手順について,下記に詳しく記します.

1. あらすじ集合を文単位へ分割

あらすじ集合を文に分割することで,1文に対して1つのアトリビュートが付与されるため,1作品の特性を複数のアトリビュートによって分散的に表現可能になります.具体的な分割方法としては,基本的には「。」「!」「?」の3つで分割し,括弧内に「。」「!」「?」がある場合や文中で改行されている場合は分割されないようにしました.

 また,単体で存在してしまっていた「!」「?」を削除する処理も行いました.

2. BERTopicを用いたあらすじ文集合のトピックへの分類

 BERTopicとは,トランスフォーマーとc-TF-IDFを活用するトピックモデリング技術で,トピック記述に重要な単語を保持しながら、解釈しやすいトピックを可能にする密なクラスタを作成することができます.

 この技術を用いて,手順1で分割した作品を説明するテキスト(本研究ではあらすじ)のクラスタリングとトピック抽出を行います.BERTopicを用いる利点は2つあります.1つ目はトピック数の指定が不要であることで,2つ目は文全体の意味やテーマを考慮した分類が可能であることです.

3. LLMを用いた各トピックに対するアトリビュートの付与

 大規模言語モデル(LLM)を用いて直感的に意味を理解可能なアトリビュートの生成を行います.LLMに与えた情報としては手順2で得られた結果の「Name(クラスタ名)」と「Representation(トピックのキーワード)」を使用し,アトリビュートを作成しました.

 また,具体的には下記に示すように,一度の実行でアトリビュートが生成できないことがあったため,この場合はアトリビュートが生成されるまで何度も繰り返し実行しました.

・キーワードがそのまま出力される

例)191_ちびデビ_ついに登場_exile_ザクちゃうでシャアザクやで

・アトリビュートが長すぎる

例)あきかん /n 靴を拾った柿島が /n つまさきおとし /n と気合いを入れて臨んだ初日の練習で大失態

・複数単語がリストとして出力される

例)冒険、少年、悪魔、宝、戦い、謎、格闘、ダメ、怪盗、忍者。

・完全一致するアトリビュートが存在する

結果と考察

提案手法を用いて実際にアトリビュートを生成

上記で述べた提案手法を使用してアトリビュートを作成しました.対象データはeBookJapanに掲載されている漫画のあらすじ(14,106件)です.

結果は,作品の特性を説明する特性表現として妥当と考えられるアトリビュートと,作品の特性を説明する特性表現としては不適切と思われるアトリビュートが得られました.特性表現として妥当と考えられるアトリビュートでは,主体となるキャラクターの性質が表現されているものや,作品のメタ的な情報を含んでいるものが生成されていました.一方で,特性表現として不適切と考えられるアトリビュートでは,特定の内容に偏っているため作品検索の手がかりとしては汎用性が低いものや,情報量が多いものが生成されました.特定の内容に偏っているアトリビュートに関しては作品検索には向いていないかもしれないが,作品を説明する特性表現としては適している可能性があると考えています.

 そして,作成したアトリビュートを作品に付与しました.

作品の特性が表現できているアトリビュートと作品の内容に沿っていないアトリビュートが付与されていました.特性が表現できている例では,作品「魔法少女まどか☆マギカ」の「笑って泣いて」や「暗い魔界での少女の旅」や,作品「ドラえもん」の「日常ファンタジー」などが挙げられ,また内容に沿っていない例では,作品「鬼滅の刃」の「時代旅行」や「カメラマン」や,作品「魔法少女まどか☆マギカ」の「女子高生がバレーボール部の復活に乗り出す」などが挙げられます.

 得られたアトリビュートを用いることで,求める作品をダイレクトに検索が可能になり,また人気作品だけが検索上位を占めることを防ぎ,新作や知名度が高くない作品が発見されやすくなると考えます.

 

 特性表現としては不適切と思われるアトリビュートについて,上記に記したように,作品を説明するアトリビュートとしては適している可能性があるが,作品を検索するためのアトリビュートとしては適さないと考えます.そのため,作品検索に適するようなアトリビュートを生成することが課題として挙げられます.

 作品検索に対して適切なアトリビュートの生成に向けて,以下の2つの観点で改善案をそれぞれ2つずつ挙げました.

  1. あらすじ文のトピック
    1. トピックの制限
    1. 複文の処理
  2. LLMの生成と精錬
    1. LLMに与える情報の整理
    1. 生成されたアトリビュートの精錬

トピック数の制限について,形成されたトピックのNameの情報がまとまっていないことがありました.そのため,手順2の際にあらかじめトピック数を指定しておくことで形成されるトピックがよりまとまる可能性があると考えます.

複文の処理について,複数の話題が1文中に記述されている複文が存在していました.そのため,複文を分解することで作品にたいしてより適切で幅広いアトリビュートが付与される可能性があると考えます.

LLMに与える情報を整理することについて,アトリビュートを生成する際の情報量が足りないのではないかと考えたため,クラスタに含まれる文章も情報として与えることでより適切なアトリビュートを生成できる可能性があると考えます.

アトリビュート自体を精錬することについて,あらすじ文全体の中での出現頻度からアトリビュートになりえる単語集合をあらかじめ用意し,集合の中から各トピックに該当する単語を選ばせるようなプロンプトを与えることでアトリビュートに適切な単語が含まれる可能性が高くなると考えます.また,アトリビュートの文字数を制限したり,整合性をLLM自身に評価させるようにしたりすることも改善案として挙げられます.

おわりに

今回の発表で自分が考えられていなかった部分について議論することができ,課題点についてさまざまな改善案やアプローチ方法を提案していただきました.今回の研究発表を通して学んだことや頂いたご意見を活かして今後の活動に活かしていきたいと思います.