特集2〜画像もテキストもAIで認識できる「マルチモーダルモデル」の実力
日経Linux 第254号 2024.1.1
掲載誌 | 日経Linux 第254号(2024.1.1) |
---|---|
ページ数 | 9ページ (全10032字) |
形式 | PDFファイル形式 (3733kb) |
雑誌掲載位置 | 96〜104ページ目 |
画像や音声、テキストを同時に扱える、注目の「マルチモーダルモデル」の実力を検証します。高性能なモデル「LLaVA」を使い、日本の道路標識の画像を与えて、なんの標識か答えさせます。学習データを人工的に作って再学習(ファインチューニング)させると、性能を向上させられました。(Elith 下垣内 隆太、大森 一祥)マルチモーダルモデルとは 「マルチモーダルモデル」という言葉を聞いたことはあるでしょうか。…
記事の購入(ダウンロード)
購入には会員登録が必要です 会員登録はこちら
価格 550円(税込)
他のIDで購入する
G-Search ミッケ!は雑誌を記事ごとに販売するサービスです。
この記事は「9ページ(全10032字)」です。ご購入の前に記事の内容と文字数をお確かめください。
(注)特集のトビラ、タイトルページなど、図案が中心のページもございます。