docs: add P8 multimodal video analysis roadmap for transcription quality improvement

hikaru-inoue-cyber · claude · hikaru-inoue-cyber · commit 9d85286f286b · 2026-04-20T11:52:09.000+09:00
Speaker identification from Zoom gallery view frames and slide OCR for terminology correction.

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/docs/roadmap.md b/docs/roadmap.md
@@ -144,6 +144,30 @@ PMBOKの観点から現システムを評価した結果、以下の領域が未
   `pm_report.py` の要注意セクションで外部待ちアイテムを自動抽出・強調する
 
 
+### P8: マルチモーダル動画解析による議事録品質向上（未実装）
+
+Zoom会議の録画動画に対し、音声だけでなく映像フレームからもマルチモーダルモデルで情報を抽出し、議事録の精度を向上させる。
+
+#### 8.1 話者同定の自動化（優先度高）
+
+- Zoomギャラリービューではアクティブスピーカーの枠がハイライトされ、参加者名が表示される
+- 動画から5〜10秒間隔でフレームを抽出し、マルチモーダルモデル（gemma4等）にアクティブスピーカーの名前を読み取らせる
+- pyannoteの話者ラベル（"Speaker 0/1/2..."）と時刻を照合し、実名への自動マッピングを行う
+- 現状の `whisper_vad.py` の話者分離後の手動実名化工程を置き換える
+
+#### 8.2 スライド・資料OCRによる専門用語補正（副次効果）
+
+- 画面共有中のスライドからOCRで技術用語（MONAKA-X、NVLink-C2C、Benchpark等）を抽出
+- Whisperが誤認識しやすい固有名詞の修正辞書として活用する
+- 既存の `whisper_vad.py` の後処理として追加
+
+#### 実装上の考慮事項
+
+- 全フレームではなく5〜10秒間隔のサンプリングで十分（コスト削減）
+- Zoomの録画レイアウト（ギャラリー/スピーカービュー/画面共有）によって抽出精度が変わるため、レイアウト検出ロジックが必要になる可能性がある
+- マルチモーダル推論はvLLMの別ポートまたは同一サーバーでの逐次処理で実行
+- 8.1（話者同定）を先に実装・効果測定し、その後8.2（スライドOCR）を追加する段階的アプローチを推奨
+
 ### 参考: 現時点で対応済みの弱点
 
 | 課題 | 対応状況 |