- 活動報告 「2023年度人工知能学会全国大会(JSAI)」で、院生の溝端 華歩さんが発表
- 第5回 CCCA-LAB. 講演会 株式会社ファリアー代表取締役社長 馬場 保仁 氏
【活動報告】
2023年6月5日(月)から9日(金)に熊本県の熊本城ホールを会場に開催された「2023年度人工知能学会全国大会(JSAI)」で、院生の溝端華歩さんが発表しました。
はじめに
山西研究室M1の溝端華歩です. 2023年6月5日-9日に熊本城ホールで開催された2023年度人工知能学会全国大会(JSAI)にて研究発表について報告いたします。
今回は「飲食関連テキストのドメイン特性を利用したレストランレビューの分析」というタイトルで発表しました.
研究概要
現在,飲食店を探す際に飲食店レビューを参照しながらお店を決定するといった手法がポピュラーになっています.しかしながら,ユーザが参照する飲食店レビューは基本的に自由記述されており,多様な観点が混在しているといった特徴があります.そこで本研究では,レビューを「食そのものの解説」と「食に関する体験談・経験談」の2つの観点に分類し,ユーザがレビューを参照する際の手助けに繋げることを目標とします.本研究の取り組みとしては,ドメインの特性を持つ学習データを2つ用いて分類器を構築し,その分類器を用いて飲食店レビューの2種類のドメインへの尤度の確認を行いました.その結果,多くのレビューが「食に関する体験談・経験談」に識別されました.また,「食に関する体験談・経験談」の尤度が低いレビュー,つまり,「食そのものの解説」の尤度が比較的高かったレビューは飲食物の視覚的な様子や味,におい,調理方法などのような食レポ要素が多く含まれていることが明らかになりました.
実験では飲食店レビューを分類器に入力し,「食そのものの解説」の尤度と「食に関する体験談・経験談」の尤度を出力しました.分類器の構築にはアノテーションデータを用いずに,「食そのものの解説」を重点的に記述した文書ドメインであるレシピ検索サイトの楽天レシピから「レシピの紹介」と,「食に関する体験談・経験談」を重点的に記述した文書ドメインである飲食店検索サイトの一休.comレストランからレビューを学習データとして用いて構築しました.本研究では,比較的低コストで容易に分類器を構築することが可能なfastTextを実験の際には使用しました.入力に用いた分類データは飲食店検索サイトの食べログのレビューに下記に記す表の通り,8つの条件を設けて各条件ごとに5レビューずつ,2つの地域から準備しました.
用いたデータにはすべて,絵文字の削除,テキストの正規化,文の形態素解析などの前処理を施し,比較的プレーンな情報にして揃えました.学習データにはレシピの紹介,一休レビュー共に14,297件ずつ,合計28,594件のデータを用いました.学習器のパラメータは自動で最適なものを提示するfastTextのautomatic hyperparameterという関数を用いて設定し,学習に使用していないレシピの紹介と一休レビューを各5,944件,合計11,888件をテストデータとして使用すると分類精度は0.984となりました.
実験結果としては,ほとんどのレビューが一休ラベルに分類された,一休ラベルの尤度が高いデータは「食に関する体験談・経験談」についての内容が多い,一休ラベルの尤度が低いデータ・楽天ラベルに分類されたデータは「食そのものの解説」が多いといったことがわかりました.実験によって得られた尤度は以下の東京都日本橋の表と,東京都銀座の表の通りです.
表の具体的な数値のみを見てもどの様なデータがこの分類結果になったのかわからないので,次に,分類結果の具体例を挙げます.なお,分類結果のデータには処理を施して,自立語のみの集合にして表示しています.
次の表は一休ラベルの尤度が特に高かったデータの自立語集合を示しています.「食に関する体験談・経験談」について述べていた部分をわかりやすいように緑色のマーカーで示しています.表の通り,一休ラベルの尤度が高いデータには「食に関する体験談・経験談」が多く記述されているといったことがわかります.
次の表は一休ラベルの尤度が特に低かったデータの自立語集合を示しています.「食そのものの解説」について述べていた部分をわかりやすいように黄色のマーカーで示しています.表の通り,一休ラベルの尤度が特に低かったデータには「食そのものの解説」が多く記述されているといったことがわかります.
次の表は楽天ラベルに分類されたデータの自立語集合を示しています.上の表と同じ様に,「食そのものの解説」について述べていた部分はわかりやすいように黄色のマーカーで示しています.楽天ラベルに分類されたデータはほぼ全ての文章が「食そのもの」に関する記述であったことがわかりました.
以上の実験結果から,「飲食店検索サイト」といった同じジャンルの情報リソースから得た飲食関連テキストは「レシピ検索サイト」のような異なるジャンルの情報リソースから得たものよりも情報リソースの特性が異なっていた場合であってもにた分散表現を持つといった知見を得ることができました.また,一休ラベルの尤度が高いデータには「体験」をテーマとして情報検索を行うことのできる一休.comレストランのドメイン特性に一致しており,一方で一休ラベルの尤度が低いデータ・楽天ラベルに分類されたデータは「レシピ」の紹介で料理に関する解説をしている楽天レシピデータセットのドメイン特性に一致していることからは,分類器はアノテーションデータなしでも十分な精度を保ちながら構築できたということもわかりました.
おわりに
JSAIではさまざまな研究発表を聞くことができたり,多くの他大学の学生や先生方,また,企業研究者の方々とお話しする機会があり,とても刺激的で楽しかったです.今まで触れたことのない分野の研究についてお話を聞いたり,自分の研究に関連する研究についての発表を聞いたり,さまざまな話題に触れることは今後の自分の研究活動へのモチベーションにつながりました.
自分にとっては初めての九州,初めての熊本県だったので全てが新鮮に感じられ,現地での活動を心から楽しむことができました.会場の熊本城ドームのすぐそばに熊本城があったり,会場の周りにはさまざまな郷土料理の楽しむことができる飲食店があったりと地元では味わうことのできない興味深い経験ができました.
JSAIに参加することによって研究に関すること以外にも多様な知識や経験を得ることができたため,今回の学会参加は自分にとって価値の高い,貴重な経験になったと感じました.
最後になりましたが,ご指導いただいた山西先生,西原先生,辻野先生に感謝を申し上げます.ありがとうございました.
第5回 CCCA-LAB. 講演会を開催しました
2023年6月22日木曜日,株式会社ファリアー代表取締役社長の馬場 保仁氏をお招きし、
・エンタテインメント業界で求められる人材とは?
・アカデミックだからこそエンタテインメントへ貢献できることとは?
をテーマにお話いただきました.
今後、インターンにのぞむ心構えや,就職活動を始める前にすべき取り組みなど,ここでしか聞けない話をいくつも提供いただきました.
研究室からエンタテインメント業界へと優秀な人材を排出し,エンタテインメントにおける学術と産業の,人材のサイクルが周る世の中を目指します.
text エンピツ舎