【参加報告】Ryo Yokoi: Computational Analysis of Lyrical Trends in Vocaloid vs. Human Singers:11th International Conference on Computational Social Science 2025年7月21日-24日

はじめに

山西研究室のM2の横井です。2025年7月21日~24日にスウェーデンで開催された、11th International Conference on Computational Social Scienceで行った研究発表について報告いたします。「Computational Analysis of Lyrical Trends in Vocaloid vs. Human Singers」というタイトルで発表しました。

研究概要

歌声合成技術を擬人化したボーカロイドは、歌声合成技術のアプリケーションとしてだけではなく、ヴァーチャルなアーティストとしても広く認識されています。日本では、ボーカロイドが歌う楽曲であるボカロ曲は人間が歌う楽曲である歌手曲と同様に聴取されるようになりました。本研究ではボカロ曲と、歌手曲における歌詞の差異分析を行いました。その中で、歌われるトピックの違いと経年変化について着目しました。

本研究の目的は、ボーカロイドが誕生したことが、人間の文化に与えている影響を定量的に明らかにすることです。この点を明らかにするために、人気のボカロ曲と歌手曲の歌詞にはトピックの違いは存在するのか、トピックはどのように経年変化してきたのかという2点に着目をしました。

対象とするデータとして、歌詞を収集し、それらをフレーズに分割し、データセットを構築しました。ボカロ曲は、ニコニコ動画から2008年から2023年までの各年再生回数上位50曲を対象としました。歌手曲は、Billboard JAPAN Charts Year-Endから同じく2008年から2024年までの各年上位最大50曲を対象としました。その結果、ボカロ曲800件と歌手曲796件を対象としました。本研究では、歌詞サイトにおいて空行によって分けられているまとまりを1フレーズとしました。収集した歌詞データを、歌詞サイトに準じて人手でフレーズごとに分割を行い、その結果、ボカロ曲9,933件、歌手曲8,560件のフレーズを分析対象としました。

本研究では、ボカロ曲と歌手曲の歌詞をフレーズ単位でトピック分析し、ボカロ曲と歌手曲でのトピックの分布の差異を検証しました。まず、BERTopicを用いたトピック分析により、歌詞のフレーズをトピックごとに分類します。次に、大規模言語モデル(LLM)を用いてこれらのトピックに事前に用意した単語リストを元にラベル付けを行います。適切なラベルがない場合には「ラベル付け不可」と付けます。さらに、経年に伴った分析によって、ボカロ曲と歌手曲それぞれの人気トピックの変遷についても分析します。

トピック分析の結果、245個のクラスタが得られました。同じラベルが付けられたクラスタを統合し、56個のラベルと「ラベル付け不可」が得られました。

ボカロ曲と歌手曲の違いによらず頻出するクラスタに着目しました。これらのラベルはボーカロイド、人間の違いによらず、フレーズで多く扱われるトピックであることが示唆されました。

比較的大きな差でボカロ曲の方が歌手曲よりも多く含まれたクラスタに着目しました。これらの結果から、ボカロ曲は歌手曲に比べてネガティブなトピックや人(特に子ども)をトピックとしたフレーズが多いことがわかりました。

比較的大きな差で歌手曲の方がボカロ曲よりも多く含まれたクラスタに着目しました。これらの結果から、歌手曲はボカロ曲に比べてポジティブなトピックや大人をトピックとしたフレーズが多いことがわかりました。

経年変化について着目します。それぞれ楽曲の発表年をもとにボカロ曲と歌手曲の年ごとの各ラベルの占有率の変遷を示します。ボカロ曲と歌手曲で各ラベルの占有比率が発表年に従って変化しており、ボカロ曲よりも歌手曲の方が大きく変化していることが見て取れます。

各ラベルにおけるボカロ曲と歌手曲の占有率の差に着目して考察します。0%よりも高いものは歌手曲の方が多く、0%よりも低いものはボカロ曲が多いことを意味します。

2008年の「歌」というラベルに着目します。このラベルはボカロ曲において2008年が最も高く、それ以降で大きな変化は見られませんでした。この結果から、ボーカロイドが人気になり出した2008年はボーカロイドが歌うということが特別であったため、「歌」につてのフレーズが多く見られたのではないかと考えられます

2020年に着目します。歌手曲の方が多く見られたラベルは、「love」「愛」「光」「pop」「歌」「世界」でした。これは、COVID-19の辛い経験とは対照的にポジティブなテーマを歌で表現した可能性が考えられます。このような結果は、ボカロ曲では見られませんでした。

「愛」と「光」のラベルについて着目して、経年変化を見ます。これらのグラフから、歌手曲は年ごとに変動する傾向がある一方で、ボカロ曲は歌手曲に比べてより安定している傾向が見られました。この結果から、歌手曲はボカロ曲よりも社会的影響を受けやすい可能性が考えられます。

本研究では、ボーカロイドと人間が歌唱する楽曲の歌詞の違いに着目し、BERTopicを用いることで、ボカロ曲と歌手曲のトピックの分布と経年変化を分析しました。今後は、歌詞から想起される感情に注目した分析を行いたいと考えています。また、日本国内のみならず世界的な音楽の流行曲と比較し、日本の音楽市場における特異性を検証していきたいと考えています。

おわりに

今回の研究発表は、私にとって初めての国際会議でした。英語での資料作りや発表などは、日本語での発表とはまた異なる部分を意識する必要があり、とても貴重な経験となりました。また、他の方の発表内容を理解できなかったり、質疑応答で言いたいことを伝えられなかったりなど、自分の英語力の未熟さも痛感しました。今回の経験をもとに、今後の研究に活かしていけたらと考えています。