本研究では,ウェブ上で公開されている様々なデータセットを想定ドメイン外の事前学習モデルの構築に応用するフレームワークを検討する.一般的に機械学習モデルを構築するためには,あらかじめ何らかのラベルが付与されたアノテーションデータが必要となる事が多い.このアノテーションデータを構築すること自体に,多くの人的あるいは時間的コストがかかる.一方で,この人工知能技術の発展とそれに対する期待から数多くのデータセットが世界中で公開されてきている.これらの既存データセットを想定されているドメイン以外の事前学習モデルの構築に利用し,既存データセットの再価値化を目指す.