2025-11-23T04:13:16.733055

ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos

Vuong, Kwak
We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.
academic

VideoPath-LLaVA: 病理ビデオ診断推論のマルチモーダルモデル

基本情報

  • 論文ID: 2505.04192
  • タイトル: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
  • 著者: Trinh Vuong, Jin Tae Kwak (Korea University)
  • 分類: cs.CV cs.AI cs.CL
  • 発表時期: arXiv preprint (2025年)
  • 論文リンク: https://arxiv.org/abs/2505.04192v2

摘要

VideoPath-LLaVAは計算病理学分野における初の大規模マルチモーダルモデル(LMM)であり、3つの異なる画像シーン、すなわち個別パッチ画像、自動キーフレーム抽出によるクリップ、および手動分割されたビデオ病理画像を統合し、病理医の自然な診断プロセスをシミュレートしています。詳細な組織学的記述を生成し、最終的に明確な診断結論を提供することにより、VideoPath-LLaVAは視覚的叙述と診断推論を結合しています。本手法の中核はVideoPath-Instructデータセットであり、YouTubeの教育的組織病理学ビデオから得られた4278個のビデオと診断特異的思考連鎖指示対を含んでいます。

研究背景と動機

核心的課題

  1. 単一画像診断の限界性:医学分野の既存LMMの大多数は単一画像に基づく質問応答に焦点を当てていますが、病理診断タスクに問題が存在します。高倍率画像は全体的構造情報に欠け、低倍率画像は微細な詳細に欠けています
  2. ビデオリソースの不十分な活用:教育YouTubeビデオは構造化された教学プロセス(低倍率概観から高倍率検査へ)を有していますが、アライメント問題が存在します。すなわち、単一フレームがビデオセグメント全体とその転写を表現し、しばしばその視覚的内容を超過しています
  3. 診断推論プロセスの欠落:病理医の段階的診断推論プロセスをシミュレートできるAIシステムが不足しています

研究動機

  • 教育ビデオの固有の構造を活用して思考連鎖(CoT)推論プロセスを構築する
  • ビデオフレームとテキスト記述間のアライメント問題を解決する
  • 解釈可能な診断推論を提供する初の病理ビデオ理解モデルを確立する

核心的貢献

  1. 革新的モデル:計算病理学分野における初のビデオ理解大規模マルチモーダルモデルであるVideoPath-LLaVAを提案
  2. 高品質データセット:4278個の精選された病理ビデオペアの指示追従質問応答を含むVideoPath-Instructデータセットを構築
  3. 革新的訓練戦略:アライメント、画像SFT、混合SFT、ビデオSFTを含む4段階訓練法を設計
  4. 優れた性能:VideoPath-Instructテストセットにおいて、GPT-4oなどの先進モデルを超越
  5. オープンソース貢献:コード、データ、モデルを公開し、コミュニティにインフラストラクチャを提供

方法の詳細

タスク定義

病理ビデオ入力が与えられた場合、モデルは以下を実行する必要があります:

  1. 詳細な組織学的記述を生成する
  2. 段階的な診断推論を実施する
  3. 最終的な病理診断結論を提供する

モデルアーキテクチャ

VideoPath-LLaVAはLLaVA-ovアーキテクチャに基づき、3つの主要コンポーネントを含みます:

  1. 視覚エンコーダ(ViT):SigLIPエンコーダを採用して画像特徴を抽出 zv=g(xv)z_v = g(x_v)
  2. プロジェクタ:2層MLPが画像特徴を単語埋め込み空間に投影 hv=p(zv)h_v = p(z_v)
  3. 言語デコーダ(LLM):Qwen-2.5-7Bをベースとし、投影された視覚特徴とテキスト指示を受け取って応答を生成

訓練戦略

4段階の段階的訓練を採用:

段階0: アライメント段階

  • 画像-キャプション対上でプロジェクタを事前訓練
  • LLMとViT間の接続を確立

段階1: 画像SFT

  • 画像指示調整データセット上でモデル全体を微調整
  • Quilt-LLaVAおよびPathAsstデータセットを使用

段階2: 混合SFT(革新的ポイント)

  • 画像と自動分割ビデオ指示データセットを組み合わせて訓練
  • 静的画像から動的ビデオコンテンツへのスムーズな移行を促進

段階3: ビデオSFT

  • VideoPath-Instruct上で最終微調整
  • 過適合を回避するためLLMにLoRA調整を適用

技術的革新点

  1. 段階的視覚タスク移行:段階2の混合訓練は画像とビデオタスク間を効果的に橋渡し
  2. 思考連鎖診断推論:CoT promptingを活用して構造化推論プロセスを生成
  3. 多層的ビデオ分割:自動キーフレーム抽出と手動精密分割を結合
  4. 視覚データ精製:組織検出とテキスト除去によるデータ品質保証

実験設定

データセット

  1. VideoPath-Instruct:4036個の訓練ビデオ、242個のテストビデオ
  2. ClipPath-Instruct:140k個の自動分割病理クリップ
  3. 補助データセット:Quilt-1M、PathAsst、膀胱データセットなど

データ前処理

  • Whisperを使用したビデオ転写
  • YOLO-Pathによる組織検出と人物遮蔽
  • docTRによるテキスト検出と除去
  • AutoShotによる候補クリップ境界検出

評価指標

Video-ChatGPT指標を使用した評価:

  • Context(文脈関連性)
  • Correctness(正確性)
  • Detail(詳細度)
  • スコア範囲:0-5点、GPT-3.5-turbo-0613を使用して評価

比較手法

  • オープンソースLMM:LLaVA-OV、LLaVA-Video、InternVL2-8B、Qwen2-VL、Qwen2.5-VL
  • 専有LMM:GPT-4o、Claude-3.7-Sonnet、Gemini-1.5-Pro、Gemini-2.0-Flash

実験結果

主要結果

VideoPath-LLaVAはVideoPath-Instructテストセットで優れた性能を達成:

モデルContextCorrectDetailAvgNorm-Avg
GPT-4o2.692.692.362.5851.60
VideoPath-LLaVA (完全版)2.822.822.672.7755.40
VideoPath-LLaVA (段階2なし)2.742.682.692.7054.08
LLaVA-OV (ベースライン)1.861.402.031.7635.21

主要な知見

  1. 段階2の重要性:混合SFTが性能を大幅に向上(2.70→2.77)
  2. LoRAが全体微調整を上回る:小規模データセットではLoRA調整がより効果的
  3. データ効率:訓練データの50%のみを使用しても強固な性能を維持
  4. 専有モデルを超越:パラメータ数が少ない(7B)にもかかわらず、GPT-4oを超越

ケース分析

高度な漿液性癌診断ケースにおいて:

  • GPT-4o:漿液性癌を正確に識別するが、重要な特徴記述に欠ける
  • VideoPath-LLaVA:核異型性、間質線維化などの重要な病理特徴を詳細に記述し、より正確な悪性度評価を提供

関連研究

医学マルチモーダルモデル

  • LLaVA-Med:生物医学画像に適応したLLaVAアーキテクチャ
  • Quilt-LLaVA:YouTubeビデオから画像-キャプション対を構築
  • CPath-Omni:パッチレベルおよび全スライス画像分析に拡張

ビデオ理解モデル

  • LLaVA-Video:ビデオ理解のLLaVA拡張
  • Video-ChatGPT:ビデオ対話システム

本論文の優位性

  1. ビデオ理解を計算病理学に初めて導入
  2. 単一画像診断の固有の限界を解決
  3. 構造化された診断推論プロセスを提供

結論と考察

主要な結論

  1. VideoPath-LLaVAは病理ビデオ分析の新しいベンチマークを確立
  2. 4段階訓練戦略は画像からビデオへの知識移行を効果的に実現
  3. 思考連鎖推論は診断の解釈可能性と正確性を大幅に向上

限界性

  1. データソースの制限:YouTubeの教育ビデオに依存し、品質のばらつきが存在する可能性
  2. 人的検証の欠落:生成された診断は病理専門家の検証を欠いている
  3. 稀な病理カバレッジの不足:稀な病理タイプへの汎化能力に限界
  4. 計算リソース要件:訓練に大量のGPUリソースが必要

今後の方向性

  1. データセットの規模と多様性の拡張
  2. 臨床専門家との協力検証の強化
  3. 稀な病理診断能力の向上
  4. より効率的な訓練戦略の探索

深層評価

利点

  1. 革新性が顕著:ビデオ理解を計算病理学に初めて導入し、重要な空白を埋める
  2. 方法設計が合理的:4段階訓練戦略は科学的で、段階的移行学習は効果的
  3. 実験が充分:包括的な比較実験と消融研究が方法の有効性を証明
  4. 実用価値が高い:解釈可能な診断推論を提供し、臨床応用の可能性を有する
  5. オープンソース貢献:完全なコード、データ、モデルを公開し、領域発展を促進

不足点

  1. 評価の限界:自構築データセット上でのみ評価され、標準化ベンチマークに欠ける
  2. 臨床検証の不足:実臨床環境での検証と専門家評価が不足
  3. 計算効率:モデル規模と訓練コストが高く、実際の導入に課題
  4. 汎化能力が未知:異なる病理タイプと病院データへの汎化能力の検証が必要

影響力

  1. 学術的価値:病理ビデオ理解の新方向を開拓し、後続研究の基礎を提供
  2. 臨床的可能性:病理診断を支援し、診断効率と正確性の向上に期待
  3. 技術的貢献:多段階訓練戦略は他の医学ビデオ理解タスクに推広可能
  4. データ資産:VideoPath-Instructデータセットは重要な研究リソースとなる

適用シーン

  1. 医学教育:病理学教育と訓練を支援
  2. 臨床意思決定支援:病理医に第二意見を提供
  3. 遠隔診断:資源不足地域の病理診断を支援
  4. 品質管理:病理診断の品質保証と一貫性チェックを支援

参考文献

論文は複数の重要な研究を引用しており、以下を含みます:

  • LLaVAシリーズモデルの基礎アーキテクチャ
  • Chain-of-Thought推論方法
  • LLaVA-Med、Quilt-LLaVAなどの医学マルチモーダルモデル
  • AutoShot、Video-ChatGPTなどのビデオ理解関連技術

総合評価:これは計算病理学分野において開創的意義を有する高品質な研究論文です。論文の方法は新規で、実験は充分で、結果は説得力があり、AI支援病理診断の新しい研究方向を開拓しています。いくつかの限界性が存在しますが、その学術的価値と実用的可能性は高く、さらなる注視と発展に値します。