マルチモーダルAIとは、文章・画像・音声・動画など、異なる種類のデータを同時に扱いながら学習や判断を行うAIのことです。
「マルチ」は複数、「モーダル」は情報の形式を意味します。
従来のAIは画像だけ、音声だけのように単一のデータを扱うものが多くありましたが、マルチモーダルAIは複数の情報を組み合わせることで、より高度な分析や認識ができます。
例えば、画像を見ながらその内容を文章で説明したり、音声を聞き取って適切な回答を生成したりするAIが代表例です。
スマートフォンの音声アシスタントや、画像生成AIなどにも活用されています。
ITパスポート試験では、「異なる種類のデータを組み合わせて学習・処理するAI」である点を覚えることが重要です。
また、テキスト・画像・音声などの情報を関連付けて扱うことで、より精度の高い判断が可能になる点もよく問われます。
単一データを扱うAIとの違いを整理しておくと理解しやすくなります。
こちらもご覧ください:汎用型AIとは
Visited 5 times, 5 visit(s) today

