IDRユーザフォーラム2023 【参加報告】 平尾 七虹さんが “企業賞” を受賞!!

WHAT WE DO on December ①

2023年12月11日に一橋講堂で開催された「IDRユーザフォーラム2023」でB4の平尾さんが発表し、”企業賞”を受賞。協賛企業各社が優れた発表に対し表彰するものです。

はじめに

山西研究室B4の平尾です。2023年12月11日に一橋講堂で開催された「IDRユーザフォーラム2023」での研究発表についてご報告いたします。私は、「役立つ不満抽出のためのコーパス構築とトピック分類」というタイトルで発表しました。

研究概要

ソーシャルメディアには、有用な意見や感想などが共有されている一方で、「不満」も多く共有されています。不満の中には、誹謗中傷のような攻撃的な文章もありますが、不満が言われているものを改善するヒントが隠された意見を含んだ「役立つ」文章も多くあります。しかし、役立つ不満を見たいと思っても、「役立つ」「不満」それぞれ人によって考え方が異なるため、そのまま役立つ不満のみを抽出しようと思っても、ほぼ不可能に近いです。そこで、不満の評価基準を明確に定義し、意見となる「役立つ不満」を閲覧する方法を提案します。評価基準として、改善案が思いつくとされる不満を役立つ不満、改善案が思いつかず、第三者が閲覧して快く思わない不満を参考にしにくい不満、改善案が思いつかないものの、第三者が閲覧して不快に思わない不満を一般的な不満とし、これらの基準をもとに役立つ不満のアノテーションを実施します。ある不満が意見となり得るかどうかは、不満の対象によって異なるため、対象を明確にするためにトピックに分ける必要があります。そのため本研究では、不満をトピックに分類した上で、アノテーションを行い、分析・考察を行いました。

上図は、本研究の成果として作成した「役立つ不満」サブデータセットの一部と、アノテーションに用いたラベルの種類を表す図になります。サブデータセットは3名によるアノテーションの結果で構成されています。このデータセットを作成するにあたり、不満の文章に対して様々なアプローチを行いました。

不満の文章に対してBERTopicを用いたトピック分類を行いました。不満の文章は、国立情報学研究所(NII)が情報研究データリポジトリ(IDR)にて提供する不満調査データに含まれるサブカテゴリ「ライブ・コンサート・カラオケ」の不満17,529件のデータのデータを使用しました。BERTopicによるトピックの出力結果では、トピック数が多くなり、1トピックに対して不満の数が少なすぎて分析しづらくなってしまう可能性があったため、Intertopic Distance Mapを使ってトピック集合を作成しました。作成したトピック集合のうち、500件以上の不満を含むトピック集合をアノテーション用データの対象として扱います。下図は、実際に出力されたIntertopic Distance Mapであり、赤丸で囲まれたトピック集合が、今回使用したトピック集合6件になります。

トピック分類にて得られた不満を用いて、アノテーションを行いました。はじめに各トピック集合から妥当な件数のサンプルを抽出した上で、アノテーションを行います。サンプル数を計算した結果、1,612件の不満をアノテーションの対象としてランダムに抽出しました。次に、アノテーションを行う際のラベルの設定を行いました。

上図で示すラベルをもとに、3名によるアノテーションを実施しました。

 アノテーション結果の例を上表に示します。不満ID1や不満ID2は、主催者側で解決可能とアノテーションされています。このような不満が主催者側に伝われば改善策を考えるきっかけとして役立つと考えられます。一方,不満ID3 や不満ID4 は他者の働きが必要な不満と評価されました。これらの不満を解決するためには、法改正や他者からの協力が必要となり、政策の提案や心構えには役立つものの不満の対象者は不満をもとに状況を改善させることは難しいと考えられます。不満ID7や不満ID8は、不満と言いつつも願望や感想、自分自身の経験などであり、改善を思いつくきっかけになるわけでなく、第三者を不快にすることもないです。一方で、不満ID5や不満ID6は、不満の対象者に改善を求めたり、より良いものにするための提案をしたりといった内容にはなっていないことがわかります。

 本研究の結果から、ある程度「役立つ不満」というものに対して共通認識を与えた上でアノテーションをすることで、サブデータセットが作成できることがわかりました。しかし、基準を設けたとしてもまだ人によって役立つ不満の考え方が異なるため、アノテーションの結果が別れてしまうものも多くありました。今後は、よりアノテーションが一致するような基準を設け、より精度の高いサブデータセットを目指したいと考えています。

おわりに

今回の発表は私にとって初めての発表の場であったため、非常に緊張していましたが、とても貴重な経験を得られたと感じています。学生や他大学の教授や企業の方々など、様々な目線で意見をいただき、とても勉強になりました。今回はポスター発表という形式なこともあり、私の研究に興味を持って質問される方が多く、私自身も楽しく発表することができました。今回いただいた意見をもとに、より一層研究に励んでいけたらと思います。