第32回インタラクティブ情報アクセスと可視化マイニング研究会【参加報告】

WHAT WE DO on March-2

2024年3月5日に立命館大学朱雀キャンパスで開催された「第32回インタラクティブ情報アクセスと可視化マイニング研究会」でB4の北畑さんが発表しました。

はじめに

山西研究室B4の北畑です。2024年3月5日に立命館大学朱雀キャンパスで開催された「第32回インタラクティブ情報アクセスと可視化マイニング研究会」での研究発表についてご報告いたします。私は「コンテキストに適した英語表現学習支援のための映像作品の字幕データのセンチメント分析と可視化」というタイトルで発表しました。本報告記事で掲載する図は、「第32回インタラクティブ情報アクセスと可視化マイニング研究会」の発表資料の一部になります。

発表内容

図1:研究背景

本研究では、映像作品の字幕データを利用した、「セッティングに適した英語表現」の学習支援の可能性について検討しました。
一般的に、人とコミュニケーションを取る際には、会話の場面や状況、背景、対象に合わせて、適切な表現(以降、セッティングに適した表現と呼称)を選ぶ能力が必要です。例えば,話しかける相手が家族の場合,友人の場合,目上の人物の場合では,同じ意図を伝えるとしても異なる表現を用いて会話するでしょう。これは、会話の対象に合わせて適切な表現を選んでいるためです。
自身の母語ではない言語を用いた、円滑な対人コミュニケーションを望む場合には、語彙や文法規則,リスニング能力などの基礎能力の他に、「セッティングに適した表現を選択する能力」を習得する必要があります。既存の学習教材の多くは、文法的に正しいとされる表現や広く一般的に使用可能な表現の学習に焦点を当てたものが多く、セッティングに適した表現について学習できるものは少ない現状にあります。

図2:本研究での「セッティング」の定義 

図3:本研究での「表現」の定義

図4:研究概要

本研究では、「セッティング」と「表現」それぞれに図2,3で示すような概念が内包されると定義したうえで、セッティングの中で特に「前後の文脈」を、表現の中でも特に「単語の使われ方」に着目しました。そして図4に示すような分析を通し、「前後の文脈に適した単語の使われ方」の可視化と可視化結果と用例をシステムによって提示することで「セッティングに適した英語表現」の学習支援の可能性について検討しました。

図5:分析対象

分析対象として、映像作品の字幕データを用います。映像作品は多様なパーソナリティの話者が背景設定・関係性・場面状況・文脈の中でコミュニケーションを行う様子を観測可能なエンタテインメントであり、文脈に適応した言語表現の学習用教材としてすでに利用されているためです。字幕は映像作品の特徴をテキスト形式で反映したデータと言えるでしょう。

図6:分析方法

先述した字幕データの分析手法についてお話します。図6に示すように、任意の単語の文脈中での使われ方を知るために、字幕データからセンテンスとコンテキストを抽出した後、それぞれをセンチメント分析による極性評価を行いました。これにより任意の単語の使われ方が(コンテキストの極性, センテンスの極性)の組み合わせによって示すことが可能になります。
字幕データに含まれていたすべての英単語をいくつかの条件によって絞り込み、基準を満たした8,713 単語を使用してこの分析を行い、結果を積み上げグラフにしました。

図7:グラフ・用例提示システム

可視化結果と単語の極性別の用例を同時に提示するシステムを開発し、このシステムを用いて分析結果の考察を行いました。結果のすべてを示すことは不可能ですので、興味深い結果が得られたもののみをここで例として掲示します。以降、コンテキストとセンテンスの極性の組み合わせを示す際、提案システムでのボタンの表示に合わせた(C:p, S:p)のような表記を用います。

図8:英単語damnの積み上げグラフ

‘damn’ は、一般的には「永遠に罰する、地獄に落とす、酷評する、けなす、ののしる、のろう、ちくしょう!」といった意味をもちnegativeな極性をもつ単語と考えられます。可視化結果(図7)を見ると、図から‘damn’はnegativeな会話の流れで登場することが多く、negativeな発話で用いられると言えます。一方で,‘damn’はnegativeなコンテキストやセンテンスのみで用いられるわけではなく、‘damn’という単語そのものが持つ、negativeなイメージと離れたpositiveなセンテンスやコンテキストでも用いられています。

図9:英単語damnの用例(negative)

図10:英単語damnの用例(positive)

実際にどのようなセンテンスやコンテキストがどの極性に分けられているのかを見るため、極性別の用例を見ていきます。図8には極性がnegativeと判断されたセンテンス・コンテキストの用例の一部を、図9には極性がpositiveと判断されたセンテンス・コンテキストの用例の一部、示しています。結果より、センテンスの極性がnegative((C:p, S:n),(C:-, S:n),(C:n, S:n)),もしくは極性の組み合わせが(C:n,S:-)となっている例では、‘damn’は主に非難や罵りの意味で用いられていると言えるでしょう。一方で,コンテキストがpositive、極性の組み合わせが(C:-, S:p),(C:-, S:-),(C:n, S:p) となっている例では、‘damn’は後続する言葉を強調する目的で用いられており、強い肯定や賛辞の強調を示していることが読み取れました。 このシステムを用いて、可視化結果と用例の双方を提示することによって、任意の単語の主な使われ方、登場頻度は少ないが特徴的な使われ方の双方を理解することができる可能性が示唆されました。

図11:まとめ

感想

私にとって「第32回インタラクティブ情報アクセスと可視化マイニング研究会」での発表が初めての学外発表の機会になります。論文執筆、発表資料作成、会場での発表や質疑応答等に当たって、自分自身の研究活動の意義や成果を、言語化する作業を何度も行いました。自分の結論の妥当性を1から問い直し、外部の方に興味を持って聞いてもらうために様々な工夫をするなど、学外発表をしなければ得られなかった貴重な経験をいくつも積ませていただきました。肝心の発表の方は早口でまくし立てるように話してしまい、改善点が多々残る結果となりました。しかし、今後また発表させていただける機会があればこの経験を糧に、よりよい発表ができるように心がけたいと考えています。