山西良典:機械学習における事前学習モデル構築のための既存データ セットの応用フレームワーク,国立情報学研究所 戦略研究公募型共同研究,研究代表者,2021

本研究では,ウェブ上で公開されている様々なデータセットを想定ドメイン外の事前学習モデルの構築に応用するフレームワークを検討する.一般的に機械学習モデルを構築するためには,あらかじめ何らかのラベルが付与されたアノテーションデータが必要となる事が多い.このアノテーションデータを構築すること自体に,多くの人的あるいは時間的コストがかかる.一方で,この人工知能技術の発展とそれに対する期待から数多くのデータセットが世界中で公開されてきている.これらの既存データセットを想定されているドメイン以外の事前学習モデルの構築に利用し,既存データセットの再価値化を目指す.