Skip to content

Commit 9d85286

Browse files
docs: add P8 multimodal video analysis roadmap for transcription quality improvement
Speaker identification from Zoom gallery view frames and slide OCR for terminology correction. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
1 parent 2d91386 commit 9d85286

1 file changed

Lines changed: 24 additions & 0 deletions

File tree

docs/roadmap.md

Lines changed: 24 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -144,6 +144,30 @@ PMBOKの観点から現システムを評価した結果、以下の領域が未
144144
`pm_report.py` の要注意セクションで外部待ちアイテムを自動抽出・強調する
145145

146146

147+
### P8: マルチモーダル動画解析による議事録品質向上(未実装)
148+
149+
Zoom会議の録画動画に対し、音声だけでなく映像フレームからもマルチモーダルモデルで情報を抽出し、議事録の精度を向上させる。
150+
151+
#### 8.1 話者同定の自動化(優先度高)
152+
153+
- Zoomギャラリービューではアクティブスピーカーの枠がハイライトされ、参加者名が表示される
154+
- 動画から5〜10秒間隔でフレームを抽出し、マルチモーダルモデル(gemma4等)にアクティブスピーカーの名前を読み取らせる
155+
- pyannoteの話者ラベル("Speaker 0/1/2...")と時刻を照合し、実名への自動マッピングを行う
156+
- 現状の `whisper_vad.py` の話者分離後の手動実名化工程を置き換える
157+
158+
#### 8.2 スライド・資料OCRによる専門用語補正(副次効果)
159+
160+
- 画面共有中のスライドからOCRで技術用語(MONAKA-X、NVLink-C2C、Benchpark等)を抽出
161+
- Whisperが誤認識しやすい固有名詞の修正辞書として活用する
162+
- 既存の `whisper_vad.py` の後処理として追加
163+
164+
#### 実装上の考慮事項
165+
166+
- 全フレームではなく5〜10秒間隔のサンプリングで十分(コスト削減)
167+
- Zoomの録画レイアウト(ギャラリー/スピーカービュー/画面共有)によって抽出精度が変わるため、レイアウト検出ロジックが必要になる可能性がある
168+
- マルチモーダル推論はvLLMの別ポートまたは同一サーバーでの逐次処理で実行
169+
- 8.1(話者同定)を先に実装・効果測定し、その後8.2(スライドOCR)を追加する段階的アプローチを推奨
170+
147171
### 参考: 現時点で対応済みの弱点
148172

149173
| 課題 | 対応状況 |

0 commit comments

Comments
 (0)