マルチモーダルRAG入門―図表・画像を含む文書を扱うRAGの基礎からAgenticRAG・VQA型RAGまで―＜会場受講＞

技術文書や文献を対象とする上でネックとなる、図表や画像・グラフ等の重要情報を反映させることができるマルチモーダルRAGの実践法について、RAGの基本および実装・構築方法から整理し解説します。

【項目】※クリックするとその項目に飛ぶことができます

セミナー趣旨

生成 AI の実務応用が広がる中で、外部文書を参照しながら回答を生成する RAG（Retrieval-Augmented Generation）は中核技術として注目されています。しかし、従来の RAG の多くはテキスト中心であり、実際の業務文書に多く含まれる図表、グラフ、写真、スキャン画像などを十分に扱えないという課題がありました。技術文書、論文、マニュアル、医療文書などでは、むしろ図や表に重要な情報が含まれていることも多く、こうした文書を適切に扱うにはマルチモーダル RAG の理解が不可欠です。
本セミナーでは、まず通常のテキストベースの RAG の基本を整理した上で、画像のテキスト化、テキストと画像の同一ベクトル空間への埋め込み、ColPali を用いたページ画像検索、さらに LangGraph を利用した MMA-RAG まで、マルチモーダル RAG の主要な考え方と実装方法を体系的に解説します。実際に動作するコード例を通して、現在の技術動向と実装上の勘所を理解できる内容です。

受講対象・レベル

・RAG の基礎を理解した上で、マルチモーダル RAG へ発展させたい方
・図表や画像を含む PDF 文書を対象とした検索・QA システムを構築したい方
・社内文書、技術文書、論文、医療文書などを対象とした生成 AI 活用を検討している方
・ColPali や VLM を用いた最新の文書検索技術を知りたい方
・LangGraph を用いた Agentic RAG や MMA-RAG に関心のある方

習得できる知識

・テキストベース RAG の基礎知識と基本的な実装方法
・マルチモーダル RAG の代表的なアプローチとその違い
・画像を含む PDF 文書を対象とした RAG システム構築の進め方
・ColPali や VLM を利用した最新のマルチモーダル検索・回答生成の考え方
・LangGraph を用いた MMA-RAG の基礎的な実装イメージ

セミナープログラム

(1) RAG の全体像
　RAG は、大規模言語モデル（LLM）に外部知識を組み合わせて応答を生成する手法です。
本講演の導入として、RAG の基本的な考え方と、なぜ現在これが重要なのかを解説します。
(1-1) RAG が必要とされる背景
　(1-2) 検索と生成の役割分担
　(1-3) テキストベース RAG からマルチモーダル RAG への流れ
(2) テキストベースの RAG
　まずは最も基本となるテキストベースの RAG を一から実装し、RAG システムの標準的な構成を理解します。
(2-1) データベースの元になるテキストの準備
　(2-2) チャンクの切り出し
　(2-3) チャンクのベクトル化
　(2-4) FAISS によるインデックスの作成
　(2-5) 検索器の作成
　(2-6) プロンプトの作成
　(2-7) LLM による回答生成
　(2-8) 全体の RAG システムの実装
(3) Responses API の file search による RAG
　近年は商用 LLM の API を利用することで、比較的容易に実用的な RAG を実現できます。
ここでは OpenAI の Responses API の file search を利用した RAG の構築法を解説します。
(3-1) file search によるデータベースの構築
　(3-2) file search を用いた回答生成
　(3-3) file search をマルチモーダル RAG へ拡張する際の考え方
(4) マルチモーダル RAG とは何か
　実際の文書には、図、表、グラフ、写真などが多く含まれます。
こうした非テキスト情報を扱うためのマルチモーダル RAG の考え方と、その必要性を整理します。
(4-1) テキストだけでは不十分な理由
　(4-2) マルチモーダル文書を扱う際の基本課題
　(4-3) 標準的なマルチモーダル RAG の代表的アプローチ
(5) PDF 文書から画像を抽出する処理
　マルチモーダル RAG を実現するには、まず PDF 文書内のテキスト、図、表、ページ画像を適切に取り出す必要があります。
ここではその前処理を解説します。
(5-1) PDF 解析パイプラインの設定
　(5-2) PDF 文書から Docling 文書への変換
　(5-3) ページごとの出力ディレクトリとページ画像の生成
　(5-4) 文書要素（テキスト・図・表）の走査とページへの振り分け
　(5-5) 全ページ情報の保存と実行例
(6) 画像のテキスト化によるマルチモーダル RAG
　標準的アプローチは、画像を説明文へ変換し、そのテキストを通常の RAG に組み込む方法です。
比較的理解しやすく実装しやすい方法として解説します。
(6-1) 画像のテキスト化のプロンプト設計
　(6-2) 画像のテキスト化の実行
　(6-3) 生成した画像説明文の保存
　(6-4) テキスト化結果を用いた RAG の構築
(7) テキストと画像を同一ベクトル空間に埋め込むマルチモーダル RAG
　別の標準的アプローチとして、テキストと画像を同じ埋め込み空間に配置し、検索対象として統合的に扱う方法があります。
クロスモーダル検索の基本を実装を通して解説します。
(7-1) このアプローチで解くべきタスク
　(7-2) 元データのダウンロードとテキスト・画像の収集
　(7-3) クロスモーダル埋め込みモデルによるテキストのベクトル化
　(7-4) クロスモーダル埋め込みモデルによる画像のベクトル化
　(7-5) ベクトル集合からのインデックス作成
　(7-6) VLM による回答生成
(8) ColPali を利用したマルチモーダル RAG
　ColPali は PDF 文書の各ページを画像として扱い、レイアウトや図表の位置関係を保持したまま検索するアプローチです。
近年注目されているページ画像ベース検索を解説します。
(8-1) ColPali によるページ画像検索
　(8-2) ColPali によるマルチモーダル RAG の処理の流れ
　(8-3) PDF 文書の各ページの画像化
　(8-4) 各ページ画像の ColPali による行列表現への変換
　(8-5) クエリの ColPali による行列表現への変換
　(8-6) クエリとページ画像の類似度計算と検索
　(8-7) 検索ページとクエリを VLM に入力した回答生成
(9) MMA-RAG（Multimodal Agentic RAG）
　マルチモーダル RAG にエージェント的な制御を組み合わせることで、検索・判定・再試行を含む
より柔軟なシステムが実現できます。ここでは LangGraph を利用した MMA-RAG を解説します。
(9-1) LangGraph について最低限知っておくべきこと
　(9-2) LangGraph の簡単な実装例
　(9-3) 検索結果を順次利用する MMA-RAG の考え方
　(9-4) State の設定
　(9-5) 各ノードの処理
　(9-6) add_conditional_edges による分岐
　(9-7) route_after_judge の条件（accept / retry / exhausted）
　(9-8) 外部 LLM の利用
　(9-9) 外部ループによる拡張
(10) VQA を中核としたマルチモーダル RAG
　RAG の役割を検索そのものではなく、VQA を補助する形で使う考え方もあります。
ここでは医療画像を例として、VQA 型マルチモーダル RAG を解説します。
(10-1) VQA 型マルチモーダル RAG の位置づけ
　(10-2) 医療画像に対する画像検索
　(10-3) BiomedCLIP による医療画像データベースの作成
　(10-4) 類似医療画像の検索
　(10-5) MedGemma の利用
　(10-6) VQA へのプロンプト設計
＜質疑応答＞

＊途中、お昼休みや小休憩を挟みます。

セミナー講師

茨城大学工学部情報工学科教授　新納浩幸氏

【ご略歴】
　1985年　東京工業大学理学部情報科学科卒業。
　1987年　同大学大学院理工学研究科情報科学専攻修士課程修了。
　　同年　富士ゼロックス、翌年松下電器を経て、1993年茨城大学工学部助手。
　2015年　同学部教授。現在に至る。
【ご専門】
　自然言語処理、機械学習、統計学
【主な著書】
　『 LLMのファインチューニングとRAG 』
　オーム社 2024年5月22日 (ISBN: 427423195X)

セミナー受講料

1名50,600円(税込（消費税10％）、資料付)
＊1社2名以上同時申込の場合、1名につき39,600円
＊学校法人割引：学生、教員のご参加は受講料50％割引。

主催者

株式会社情報機構

開催場所

東京都

MAP

受講について

感染拡大防止対策にご協力下さい。
セミナー会場での現金支払いを休止しております。
新型コロナウイルスの感染防止の一環として当面の間、昼食の提供サービスは中止させて頂きます。
配布資料は、当日セミナー会場でのお渡しとなります。
希望者は講師との名刺交換が可能です。
録音・録画行為は固くお断り致します。
講義中の携帯電話の使用はご遠慮下さい。
講義中のパソコン使用は、講義の支障や他の方の迷惑となる場合がありますので、極力お控え下さい。
場合により、使用をお断りすることがございますので、予めご了承下さい。(＊PC実習講座を除きます。)

キーワード

情報マネジメント一般 AI（人工知能）ソフトウェア運用・活用

このセミナーについて質問する

受付中

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2026/07/16（木）
10:30 ～ 16:30　

受講料

50,600円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、コンビニ払い

受付中

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時

2026/07/16（木）
10:30 ～ 16:30　

受講料

50,600円（税込）/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、コンビニ払い

プロセスインフォマティクスの実務～製造最適化への5つの課題解決策～
- 解説記事
【目次】「実験室で最適だった反応条件が、工場の量産スケールでは再現できない」「日々の製造データが散在しており、新素材開発のプロセス...
製造業のデータ利活用術｜工場データを「稼ぐデータ」へ変換して利益を出す方法
- 解説記事
【目次】現場では日々、多くのデータが蓄積されています。生産実績や品質データ、設備稼働率、不良率など、分析対象は増え続けています。し...
EUデジタルオムニバス法案の実務展望、規制統合による負担軽減とデータ利活用の最適化
- 解説記事
【目次】 EU市場に向けて事業を展開する中で「GDPRやAI法など、次々と増えるデジタル関連規制への対応に限界を感じている」というこ...
アジャイル開発の形骸化を防ぐ実務指針、現場の混乱を解消し、機動力を高める5つの要諦
- 解説記事
【目次】「アジャイルを導入したが、以前より管理の手間が増えて現場が疲弊している」「頻繁な仕様変更によりリリース時期の予...

マルチモーダルRAG入門―図表・画像を含む文書を扱うRAGの基礎からAgenticRAG・VQA型RAGまで―＜会場受講＞

セミナー趣旨

受講対象・レベル

習得できる知識

セミナープログラム

セミナー講師

セミナー受講料

主催者

開催場所

受講について

キーワード

やさしく学べるRAG構築入門～生成AIによるチャットボットの基礎概念と構築方法を学ぶ入門講座～

技術伝承における生成AI活用入門～暗黙知のデジタル化から実践的ナレッジマネジメントまで～

AI･人工知能による感情センシングと応用事例

機械学習を用いた画像認識技術の基礎とその応用

プロセスインフォマティクスの実務～製造最適化への5つの課題解決策～

製造業のデータ利活用術｜工場データを「稼ぐデータ」へ変換して利益を出す方法

EUデジタルオムニバス法案の実務展望、規制統合による負担軽減とデータ利活用の最適化

アジャイル開発の形骸化を防ぐ実務指針、現場の混乱を解消し、機動力を高める5つの要諦

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト

マルチモーダルRAG入門―図表・画像を含む文書を扱うRAGの基礎からAgenticRAG・VQA型RAGまで―＜会場受講＞

セミナー趣旨

受講対象・レベル

習得できる知識

セミナープログラム

セミナー講師

セミナー受講料

主催者

開催場所

受講について

キーワード

関連セミナー

やさしく学べるRAG構築入門～生成AIによるチャットボットの基礎概念と構築方法を学ぶ入門講座～

技術伝承における生成AI活用入門～暗黙知のデジタル化から実践的ナレッジマネジメントまで～

AI･人工知能による感情センシングと応用事例

機械学習を用いた画像認識技術の基礎とその応用

関連記事

プロセスインフォマティクスの実務～製造最適化への5つの課題解決策～

製造業のデータ利活用術｜工場データを「稼ぐデータ」へ変換して利益を出す方法

EUデジタルオムニバス法案の実務展望、規制統合による負担軽減とデータ利活用の最適化

アジャイル開発の形骸化を防ぐ実務指針、現場の混乱を解消し、機動力を高める5つの要諦

ものづくりセミナーサーチ

日本最大級の技術・生産セミナーポータルサイト