2025-11-23T04:13:16.733055

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

Vuong, Kwak

We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.

academic

VideoPath-LLaVA: 病理ビデオ診断推論のマルチモーダルモデル

基本情報

論文ID: 2505.04192
タイトル: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
著者: Trinh Vuong, Jin Tae Kwak (Korea University)
分類: cs.CV cs.AI cs.CL
発表時期: arXiv preprint (2025年)
論文リンク: https://arxiv.org/abs/2505.04192v2

摘要

VideoPath-LLaVAは計算病理学分野における初の大規模マルチモーダルモデル(LMM)であり、3つの異なる画像シーン、すなわち個別パッチ画像、自動キーフレーム抽出によるクリップ、および手動分割されたビデオ病理画像を統合し、病理医の自然な診断プロセスをシミュレートしています。詳細な組織学的記述を生成し、最終的に明確な診断結論を提供することにより、VideoPath-LLaVAは視覚的叙述と診断推論を結合しています。本手法の中核はVideoPath-Instructデータセットであり、YouTubeの教育的組織病理学ビデオから得られた4278個のビデオと診断特異的思考連鎖指示対を含んでいます。

研究背景と動機

核心的課題

単一画像診断の限界性：医学分野の既存LMMの大多数は単一画像に基づく質問応答に焦点を当てていますが、病理診断タスクに問題が存在します。高倍率画像は全体的構造情報に欠け、低倍率画像は微細な詳細に欠けています
ビデオリソースの不十分な活用：教育YouTubeビデオは構造化された教学プロセス(低倍率概観から高倍率検査へ)を有していますが、アライメント問題が存在します。すなわち、単一フレームがビデオセグメント全体とその転写を表現し、しばしばその視覚的内容を超過しています
診断推論プロセスの欠落：病理医の段階的診断推論プロセスをシミュレートできるAIシステムが不足しています

研究動機

教育ビデオの固有の構造を活用して思考連鎖(CoT)推論プロセスを構築する
ビデオフレームとテキスト記述間のアライメント問題を解決する
解釈可能な診断推論を提供する初の病理ビデオ理解モデルを確立する

核心的貢献

革新的モデル：計算病理学分野における初のビデオ理解大規模マルチモーダルモデルであるVideoPath-LLaVAを提案
高品質データセット：4278個の精選された病理ビデオペアの指示追従質問応答を含むVideoPath-Instructデータセットを構築
革新的訓練戦略：アライメント、画像SFT、混合SFT、ビデオSFTを含む4段階訓練法を設計
優れた性能：VideoPath-Instructテストセットにおいて、GPT-4oなどの先進モデルを超越
オープンソース貢献：コード、データ、モデルを公開し、コミュニティにインフラストラクチャを提供

方法の詳細

タスク定義

病理ビデオ入力が与えられた場合、モデルは以下を実行する必要があります：

詳細な組織学的記述を生成する
段階的な診断推論を実施する
最終的な病理診断結論を提供する

モデルアーキテクチャ

VideoPath-LLaVAはLLaVA-ovアーキテクチャに基づき、3つの主要コンポーネントを含みます：

視覚エンコーダ(ViT)：SigLIPエンコーダを採用して画像特徴を抽出 $z_v = g(x_v)$
プロジェクタ：2層MLPが画像特徴を単語埋め込み空間に投影 $h_v = p(z_v)$
言語デコーダ(LLM)：Qwen-2.5-7Bをベースとし、投影された視覚特徴とテキスト指示を受け取って応答を生成

訓練戦略

4段階の段階的訓練を採用：

段階0: アライメント段階

画像-キャプション対上でプロジェクタを事前訓練
LLMとViT間の接続を確立

段階1: 画像SFT

画像指示調整データセット上でモデル全体を微調整
Quilt-LLaVAおよびPathAsstデータセットを使用

段階2: 混合SFT(革新的ポイント)

画像と自動分割ビデオ指示データセットを組み合わせて訓練
静的画像から動的ビデオコンテンツへのスムーズな移行を促進

段階3: ビデオSFT

VideoPath-Instruct上で最終微調整
過適合を回避するためLLMにLoRA調整を適用

技術的革新点

段階的視覚タスク移行：段階2の混合訓練は画像とビデオタスク間を効果的に橋渡し
思考連鎖診断推論：CoT promptingを活用して構造化推論プロセスを生成
多層的ビデオ分割：自動キーフレーム抽出と手動精密分割を結合
視覚データ精製：組織検出とテキスト除去によるデータ品質保証

実験設定

データセット

VideoPath-Instruct：4036個の訓練ビデオ、242個のテストビデオ
ClipPath-Instruct：140k個の自動分割病理クリップ
補助データセット：Quilt-1M、PathAsst、膀胱データセットなど

データ前処理

Whisperを使用したビデオ転写
YOLO-Pathによる組織検出と人物遮蔽
docTRによるテキスト検出と除去
AutoShotによる候補クリップ境界検出

評価指標

Video-ChatGPT指標を使用した評価：

Context（文脈関連性）
Correctness（正確性）
Detail（詳細度）
スコア範囲：0-5点、GPT-3.5-turbo-0613を使用して評価

比較手法

オープンソースLMM：LLaVA-OV、LLaVA-Video、InternVL2-8B、Qwen2-VL、Qwen2.5-VL
専有LMM：GPT-4o、Claude-3.7-Sonnet、Gemini-1.5-Pro、Gemini-2.0-Flash

実験結果

主要結果

VideoPath-LLaVAはVideoPath-Instructテストセットで優れた性能を達成：

モデル	Context	Correct	Detail	Avg	Norm-Avg
GPT-4o	2.69	2.69	2.36	2.58	51.60
VideoPath-LLaVA (完全版)	2.82	2.82	2.67	2.77	55.40
VideoPath-LLaVA (段階2なし)	2.74	2.68	2.69	2.70	54.08
LLaVA-OV (ベースライン)	1.86	1.40	2.03	1.76	35.21