特集２〜画像もテキストもＡＩで認識できる「マルチモーダルモデル」の実力
日経Linux　第254号　2024.1.1

この記事の情報
掲載誌	日経Linux　第254号（2024.1.1）
ページ数	9ページ　（全10032字）
形式	PDFファイル形式　（3733kb）
雑誌掲載位置	96〜104ページ目

画像や音声、テキストを同時に扱える、注目の「マルチモーダルモデル」の実力を検証します。高性能なモデル「ＬＬａＶＡ」を使い、日本の道路標識の画像を与えて、なんの標識か答えさせます。学習データを人工的に作って再学習（ファインチューニング）させると、性能を向上させられました。（Ｅｌｉｔｈ　下垣内　隆太、大森　一祥）マルチモーダルモデルとは　「マルチモーダルモデル」という言葉を聞いたことはあるでしょうか。…