Code Refactoring Report

D&D Session Video Processing Pipeline

Analysis Date: 2025-11-16 Files Analyzed: 170 Python files Primary Focus: src/, tests/, and root-level files

Executive Summary

This codebase shows good architectural patterns in many areas (use of enums, factory patterns, dataclasses), but has significant opportunities for refactoring, particularly in the pipeline module which contains a single 2,334-line file with a 600+ line method. Below are 76 specific refactoring candidates organized by category.

Long Functions (50+ lines)
Code Duplication
Complex Functions (High Cyclomatic Complexity)
Large Classes (Too Many Responsibilities)
Long Parameter Lists (4+ parameters)
Magic Numbers
Dead Code & Unused Imports
Poor Naming
Error Handling Issues
Type Issues
Code Organization
Comments & Documentation
Additional Findings
Prioritized Refactoring Roadmap

1. Long Functions (50+ lines)

Critical - Extremely Long Functions (200+ lines)

`src/pipeline.py:1503-2126` - `DDSessionProcessor.process()` method (~623 lines)

Issue: Single method handles 9 pipeline stages with complex checkpoint logic
Cyclomatic Complexity: Very high (9 major branches, nested conditionals)
Suggestion: Already has stage methods (_stage_audio_conversion, etc.), but the orchestration loop should be extracted into smaller methods:
- _execute_stage_with_checkpoint() - Generic stage executor
- _handle_stage_resumption() - Checkpoint loading logic
- _finalize_pipeline() - Cleanup and reporting
Impact: High - difficult to test, debug, and maintain

`src/pipeline.py:2127-2297` - `DDSessionProcessor.process_from_intermediate()` method (~170 lines)

Issue: Complex method handling intermediate stage processing
Suggestion: Extract stage-specific logic into helper methods
Impact: Medium

High Priority - Long Functions (100+ lines)

`src/diarizer.py:264-370` - `SpeakerDiarizer._load_pipeline_if_needed()` (~106 lines)

Issue: Complex initialization with nested try-catch, token handling, model loading
Suggestion: Extract:
- _configure_huggingface_auth() - Token setup
- _download_required_assets() - Asset download
- _initialize_pipeline_models() - Model loading
Impact: Medium-High

`src/classifier.py:265-340` - Classification with retry logic (~90 lines combined)

Lines 265-290: OllamaClassifier.classify_segments()
Lines 291-340: OllamaClassifier._classify_with_context() and _generate_with_retry()
Issue: Complex retry logic with multiple fallback strategies
Suggestion: Extract into separate RetryStrategy class
Impact: Medium

`src/knowledge_base.py:318-384` - `CampaignKnowledgeBase.merge_new_knowledge()` (~66 lines)

Issue: Merging logic for 5 different entity types with repeated patterns
Suggestion: Extract generic merge method: _merge_entity_list(new_entities, existing_entities, key_extractor, update_callback)
Impact: Medium

Medium Priority (50-100 lines)

`src/diarizer.py`

Lines 580-615: SpeakerDiarizer.diarize() (~35 lines)
Lines 470-521: SpeakerDiarizer._extract_single_speaker_embedding() (~51 lines)

`src/transcriber.py`

Lines 209-271: FasterWhisperTranscriber.transcribe_chunk() (~62 lines)
Lines 300-359: GroqTranscriber.transcribe_chunk() (~59 lines)
Lines 433-492: OpenAITranscriber.transcribe_chunk() (~59 lines)

2. Code Duplication

Critical Duplication

`src/transcriber.py` - Nearly Identical API Transcriber Classes

Lines 273-403: GroqTranscriber class
Lines 405-536: OpenAITranscriber class
Issue: Nearly identical implementations (only API client and model name differ)
Duplication:
- Identical transcribe_chunk() logic (temp file handling, parsing)
- Identical response parsing for segments and words
- Identical cleanup logic
- Similar preflight checks

Suggestion: Create BaseAPITranscriber abstract class:

class BaseAPITranscriber(BaseTranscriber):
    def transcribe_chunk(self, chunk, language):
        # Common logic using self._make_api_call()

class GroqTranscriber(BaseAPITranscriber):
    def _make_api_call(self, audio_file, language):
        # Groq-specific call

class OpenAITranscriber(BaseAPITranscriber):
    def _make_api_call(self, audio_file, language):
        # OpenAI-specific call

Lines Saved: ~120 lines
Impact: High

`src/pipeline.py` - Repeated Checkpoint Loading Pattern

Lines 1650-1678, 1685-1710, 1717-1767, etc.: Checkpoint loading pattern repeated 9 times

Issue: Each stage has nearly identical checkpoint loading logic:

if self._should_skip_stage(STAGE, completed_stages):
    checkpoint_data = self._load_stage_from_checkpoint(STAGE)
    if checkpoint_data:
        # Load data
    else:
        completed_stages.discard(STAGE)

Suggestion: Create generic _load_or_clear_checkpoint() method
Lines Saved: ~100 lines
Impact: High

Medium Priority Duplication

`src/diarizer.py` - Token Verification Logic

Lines 659-720: SpeakerDiarizer.preflight_check()
Lines 234-245: HuggingFaceApiDiarizer.preflight_check()
Issue: Token verification logic duplicated
Suggestion: Extract to shared helper function

Error Handling Try-Catch Blocks

Similar patterns in: knowledge_base.py, party_config.py, session_manager.py
Suggestion: Create error handling decorators

3. Complex Functions (High Cyclomatic Complexity)

`src/pipeline.py:1503-2126` - `process()` method

Cyclomatic Complexity: ~25+ (9 stages × 2-3 branches each)
Nesting Depth: 4-5 levels in checkpoint handling
Suggestion: Extract stage execution to command pattern

`src/diarizer.py:264-370` - `_load_pipeline_if_needed()`

Complexity: Multiple nested conditionals for auth, model loading, device selection
Nesting Depth: 3-4 levels
Suggestion: State machine pattern for initialization phases

`src/classifier.py:320-340` - `_generate_with_retry()`

Complexity: Triple nested error handling (primary → low_vram → fallback)
Suggestion: Chain of responsibility pattern for retry strategies

`src/knowledge_base.py:88-258` - `KnowledgeExtractor.extract_knowledge()`

Complexity: JSON parsing with multiple fallback strategies, entity type branching
Suggestion: Separate parsing, validation, and conversion concerns

4. Large Classes (Too Many Responsibilities)

`src/pipeline.py` - `DDSessionProcessor` (2,200+ lines, lines 117-2335)

Responsibilities:
1. Pipeline orchestration
2. Checkpoint management
3. Stage execution (9 stages)
4. Error handling and recovery
5. Progress tracking
6. Metadata management
7. Intermediate output management
Methods: 25+ methods
Suggestion: Split into:
- PipelineOrchestrator - Main control flow
- StageExecutor - Individual stage execution
- CheckpointManager - Already exists but not used consistently
- ProgressReporter - Status tracking (combine with StatusTracker)
Impact: Critical - violates Single Responsibility Principle

`src/diarizer.py` - `SpeakerDiarizer` (480+ lines, lines 247-767)

Responsibilities:
1. Pipeline initialization
2. Model loading
3. Audio loading (multiple formats)
4. Diarization execution
5. Embedding extraction
6. Fallback handling
Suggestion: Extract EmbeddingExtractor and AudioLoader classes

`src/classifier.py` - `OllamaClassifier` (320 lines, lines 196-516)

Responsibilities:
1. Classification
2. Retry logic
3. Memory management
4. Model fallback
5. Preflight checks
Suggestion: Extract ModelRetryStrategy class

5. Long Parameter Lists (4+ parameters)

`src/pipeline.py:138-151` - `DDSessionProcessor.init()` - 11 parameters

Issue: Too many constructor parameters

Suggestion: Use configuration object:

@dataclass
class PipelineConfig:
    session_id: str
    campaign_id: Optional[str] = None
    party_id: Optional[str] = None
    num_speakers: int = 4
    language: str = "en"
    resume: bool = True
    backends: BackendConfig = field(default_factory=BackendConfig)

`src/pipeline.py:1503-1512` - `process()` - 6 parameters

Suggestion: Create ProcessingOptions dataclass

`src/formatter.py:266-274` - `save_all_formats()` - 6 parameters

Suggestion: Bundle segments, classifications, profiles into TranscriptData object

`src/classifier.py:71-78` - `_build_prompt()` - 5 parameters

Suggestion: Create ClassificationContext object to bundle context parameters

6. Magic Numbers

`src/chunker.py`

# Line 113
min_speech_duration_ms=250  # Should be constant
# Line 114
min_silence_duration_ms=500  # Should be constant
# Line 217
search_window = 30.0  # Should be constant

Suggestion:

class VADConstants:
    MIN_SPEECH_DURATION_MS = 250
    MIN_SILENCE_DURATION_MS = 500
    SEARCH_WINDOW_SECONDS = 30.0

`src/diarizer.py`

# Line 514
/ 32768.0  # Audio normalization constant
# Line 183
timeout=120  # API timeout
# Line 186
time.sleep(30)  # Retry delay

Suggestion:

class AudioConstants:
    PCM_16BIT_MAX = 32768.0
    SAMPLE_RATE_DEFAULT = 16000

class ApiConstants:
    DEFAULT_TIMEOUT = 120
    RETRY_DELAY = 30

`src/classifier.py`

# Line 356
'num_predict': 200
# Line 357
'num_ctx': 2048
# Line 346
'num_ctx': 1024  # Low VRAM mode

Suggestion:

class LLMGenerationDefaults:
    TEMPERATURE = 0.1
    NUM_PREDICT = 200
    NUM_CTX_NORMAL = 2048
    NUM_CTX_LOW_VRAM = 1024

Other Files

src/knowledge_base.py:115 - ic_transcript[:4000] → TRANSCRIPT_ANALYSIS_MAX_CHARS = 4000
src/pipeline.py:274 - if file_size < 1000: → MIN_VALID_AUDIO_FILE_SIZE = 1000
src/pipeline.py:504 - Preview length → PREVIEW_TEXT_MAX_LENGTH = 220

7. Dead Code & Unused Imports

`src/pipeline.py:25-28` - Mock Import

Issue: Try-except for Mock import used only for type checking
Suggestion: Use if TYPE_CHECKING: instead

`src/diarizer.py:23-34` - Warning Suppression

Issue: Complex warnings filter setup suppressing warnings that might indicate real problems
Suggestion: Address root causes or document why suppression is necessary

`src/diarizer.py:36-92` - Torchaudio Backend Patching

Issue: Extensive monkey-patching of deprecated APIs
Suggestion: Update to use modern torchaudio APIs or document compatibility requirements

`src/classifier.py:17-20` - Optional Groq Import

Note: Good pattern, but check if Groq is None checks are consistent

8. Poor Naming

Unclear Variable Names

`src/pipeline.py:356` - State Tracking Dictionary

chunk_progress = {"count": 0, "last_logged_percent": -5.0, "last_log_time": perf_counter()}

Issue: Dictionary used for state tracking
Suggestion: Create ChunkProgressTracker dataclass

`src/chunker.py:236` - Unexplained Magic Multiplier

score = distance_score - (gap_width * 2)

Issue: Magic multiplier 2 not explained
Suggestion: Name as GAP_WIDTH_REWARD_FACTOR = 2

Inconsistent Naming

Backend Naming

WHISPER_BACKEND uses "local" (config.py:67)
DIARIZATION_BACKEND uses "pyannote" or "local" (config.py:68, diarizer.py:873)
Suggestion: Standardize to "local" vs "api" or be explicit ("whisper_local", "pyannote_local")

Classification Constants

Sometimes uses string "IC", sometimes Classification.IN_CHARACTER
Files: classifier.py, formatter.py
Suggestion: Always use enum, add __str__ method if string needed

9. Error Handling Issues

Inconsistent Error Handling

`src/pipeline.py` - Mixed Error Strategies

Pattern: Some stages raise exceptions (stages 1-4), others fail gracefully (stages 5-6, 8-9)
- Lines 298-307: Stage 1 raises RuntimeError
- Lines 749-778: Stage 5 gracefully degrades
Issue: Inconsistent behavior makes error handling unpredictable
Suggestion: Document and enforce error handling strategy:
- Critical stages (1-4): Raise exceptions
- Optional stages (5-6, 8-9): Graceful degradation with warnings

Broad Exception Catching

`src/knowledge_base.py:250-258`

except Exception as e:
    # Returns empty dict

Issue: Silently swallows errors, makes debugging difficult
Suggestion: Log at ERROR level, include stack trace, consider re-raising for critical errors

`src/diarizer.py:361-362`

except Exception as e:

Issue: Too broad, catches programming errors
Suggestion: Catch specific exceptions (ImportError, RuntimeError, etc.)

`src/party_config.py:61-63`

except Exception as e:

Suggestion: Catch specific JSON parsing exceptions

Missing Error Context

`src/classifier.py:324-339` - Multiple Error Handlers

Issue: Error handlers without context
Suggestion: Include segment index, model name, prompt length in error messages

10. Type Issues

Missing Type Hints

`src/diarizer.py:318-332` - `_load_component()` Function

Current: Missing type hints

Suggestion: Add proper typing:

def _load_component(
    factory: Callable[..., T],
    model_name: str,
    **factory_kwargs: Any
) -> T:

`src/classifier.py:353-358` - `_default_generation_options()`

Issue: Returns Dict[str, float] but values are mixed types
Actual Type: Dict[str, Union[float, int]]
Suggestion: Fix return type annotation

Overuse of Any

`src/pipeline.py` - Extensive `Dict[str, Any]` Usage

Usage: Dict[str, Any] used extensively for data fields
Suggestion: Create TypedDict or dataclass for stage results

`src/formatter.py:225-227, 237` - Metadata Type

metadata: Optional[Dict] = None

Suggestion: Define TranscriptMetadata TypedDict

Inconsistent Optional Handling

`src/transcriber.py:21`

confidence: Optional[float] = None

Issue: Sometimes checked, sometimes assumed present
Suggestion: Consistent None-checking or default values

11. Code Organization

Files That Are Too Long

src/pipeline.py - 2,334 lines
- Suggestion: Split into:
  - pipeline.py - Core orchestration (300-400 lines)
  - pipeline_stages.py - Stage methods (600-800 lines)
  - pipeline_checkpoints.py - Checkpoint handling (200-300 lines)
  - pipeline_config.py - Configuration dataclasses (100 lines)
src/diarizer.py - 876 lines
- Suggestion: Split into:
  - diarizer_base.py - Base classes (100 lines)
  - diarizer_local.py - SpeakerDiarizer (400 lines)
  - diarizer_api.py - HuggingFaceApiDiarizer (200 lines)
  - speaker_profiles.py - SpeakerProfileManager (200 lines)
src/classifier.py - 879 lines
- Suggestion: Split into:
  - classifier_base.py - Base classes and utilities (150 lines)
  - classifier_ollama.py - OllamaClassifier (300 lines)
  - classifier_cloud.py - Groq and OpenAI classifiers (250 lines)
  - classifier_colab.py - ColabClassifier (200 lines)
src/character_profile.py - 876 lines
src/session_manager.py - 686 lines

Unclear Module Structure

Directory: src/

Issue: 40+ files in single directory, no clear grouping

Suggestion: Organize into subdirectories:

src/
  pipeline/
    __init__.py
    orchestrator.py
    stages.py
    checkpoints.py
  processing/
    audio_processor.py
    chunker.py
    transcriber.py
    merger.py
  classification/
    diarizer.py
    classifier.py
  output/
    formatter.py
    srt_exporter.py
    snipper.py
  knowledge/
    knowledge_base.py
    character_profile.py
  ui/
    (already organized)
  utils/
    config.py
    constants.py
    logger.py

12. Comments & Documentation

Commented-Out Code

Status: No instances found - Good!

Missing Docstrings

`src/pipeline.py:1399-1437` - Helper Methods

Methods lacking docstrings:

_should_skip_stage()
_load_stage_from_checkpoint()
_save_stage_to_checkpoint()
_reconstruct_chunks_from_checkpoint()

Outdated Comments

`src/diarizer.py:66-78` - Torchaudio Compatibility

Issue: Comment about torchaudio backend compatibility unclear if still relevant
Suggestion: Update with current version requirements

Good Documentation Examples

`src/formatter.py:1-25`

Strength: Excellent module docstring with recent changes and examples
Pattern to replicate: Version history in docstrings

`src/pipeline.py:34-60`

Strength: Excellent StageResult dataclass documentation
Pattern: Clear examples in docstrings

Additional Findings

Performance Concerns

src/pipeline.py:504 - preview_text(220) called in loop during transcription
- Impact: Minor, but could be optimized for logging
src/knowledge_base.py:326-382 - O(n²) merging algorithm
- Issue: Nested loops searching existing entities
- Suggestion: Use dict/set for O(1) lookups

Security Concerns

src/config.py:60-63 - API Key Handling

Current: API keys stored in environment variables (good)
Gap: No validation of API key format
Suggestion: Add validation helpers to detect malformed keys early

Test Coverage Gaps

Based on test file naming:

Good coverage: transcriber, diarizer, classifier, formatter
Missing tests: pipeline (main orchestration), chunker, merger
Suggestion: Add integration tests for full pipeline flow

Prioritized Refactoring Roadmap

Phase 1: Critical (Do First - High Impact, High Risk)

Split pipeline.py into multiple files (Category 11)
- Extract stage methods to separate module
- Create PipelineOrchestrator class
- Estimated effort: 2-3 days
- Risk: High (touches core logic)
Extract common API transcriber logic (Category 2)
- Create BaseAPITranscriber
- Refactor Groq and OpenAI transcribers
- Estimated effort: 4-6 hours
- Risk: Medium
Refactor DDSessionProcessor.process() method (Category 1, 3)
- Extract checkpoint handling into generic method
- Reduce cyclomatic complexity
- Estimated effort: 1-2 days
- Risk: High

Phase 2: High Priority (High Impact, Medium Risk)

Introduce configuration objects (Category 5)
- Create PipelineConfig, ProcessingOptions dataclasses
- Refactor constructors
- Estimated effort: 1 day
- Risk: Medium
Extract magic numbers to constants (Category 6)
- Create constant classes for VAD, Audio, LLM settings
- Update all references
- Estimated effort: 4-6 hours
- Risk: Low
Standardize error handling (Category 9)
- Document error handling strategy
- Implement consistently across stages
- Estimated effort: 1 day
- Risk: Medium

Phase 3: Medium Priority (Medium Impact, Low-Medium Risk)

Split large classes (Category 4)
- Extract SpeakerDiarizer components
- Extract OllamaClassifier retry logic
- Estimated effort: 2 days
- Risk: Medium
Add missing type hints (Category 10)
- Add TypedDicts for common dictionaries
- Fix Any overuse
- Estimated effort: 1 day
- Risk: Low
Organize module structure (Category 11)
- Create subdirectories
- Update imports
- Estimated effort: 1 day
- Risk: Low (IDE can help)

Phase 4: Low Priority (Low Impact or Easy Wins)

Improve naming consistency (Category 8)
Add missing docstrings (Category 12)
Clean up dead code (Category 7)

Summary Statistics

Codebase Health Metrics

Strengths:

✅ Good use of enums and constants in newer code
✅ Factory pattern for backends
✅ Dataclasses for data structures
✅ Comprehensive logging
✅ Checkpoint/resume functionality

Primary Concerns:

❌ pipeline.py is too large and complex (2,334 lines, 623-line method)
❌ Significant code duplication in transcriber backends (~220 lines)
❌ Inconsistent error handling patterns
❌ Many magic numbers not extracted to constants (60+ instances)
❌ Long parameter lists without configuration objects

Impact Analysis

Lines of Code Reduction:

Eliminating duplication: ~220 lines
Extracting repeated patterns: ~150 lines
Better abstractions: ~300 lines
Total: ~670 lines removed (11% reduction)

Complexity Reduction:

Cyclomatic complexity: 25+ → 10 or less per method
Max function length: 623 → 100 lines or less
File organization: Much improved navigability

Recommended First Steps

Split pipeline.py (addresses 30% of issues)
Extract common transcriber logic (quick win, high impact)
Add configuration objects (improves API consistency)

Total Estimated Effort: 10-15 days for all phases Highest ROI: Phase 1 items (50% improvement in maintainability)

Conclusion

The codebase demonstrates solid engineering practices but would benefit significantly from refactoring, particularly around the core pipeline orchestration. The most impactful changes involve:

Breaking down the monolithic pipeline.py file
Eliminating code duplication through better abstraction
Standardizing patterns across the codebase

These changes will improve maintainability, testability, and make future feature additions easier to implement.

Report Generated By: Claude Code Analysis Tool Total Issues Identified: 76 refactoring candidates across 12 categories

FilesExpand file tree

REFACTORING_CANDIDATES.md

Latest commit

History

REFACTORING_CANDIDATES.md

File metadata and controls

Code Refactoring Report

D&D Session Video Processing Pipeline

Executive Summary

Table of Contents

1. Long Functions (50+ lines)

Critical - Extremely Long Functions (200+ lines)

src/pipeline.py:1503-2126 - DDSessionProcessor.process() method (~623 lines)

src/pipeline.py:2127-2297 - DDSessionProcessor.process_from_intermediate() method (~170 lines)

High Priority - Long Functions (100+ lines)

src/diarizer.py:264-370 - SpeakerDiarizer._load_pipeline_if_needed() (~106 lines)

src/classifier.py:265-340 - Classification with retry logic (~90 lines combined)

src/knowledge_base.py:318-384 - CampaignKnowledgeBase.merge_new_knowledge() (~66 lines)

Medium Priority (50-100 lines)

src/diarizer.py

src/transcriber.py

2. Code Duplication

Critical Duplication

src/transcriber.py - Nearly Identical API Transcriber Classes

src/pipeline.py - Repeated Checkpoint Loading Pattern

Medium Priority Duplication

src/diarizer.py - Token Verification Logic

Error Handling Try-Catch Blocks

3. Complex Functions (High Cyclomatic Complexity)

src/pipeline.py:1503-2126 - process() method

src/diarizer.py:264-370 - _load_pipeline_if_needed()

src/classifier.py:320-340 - _generate_with_retry()

src/knowledge_base.py:88-258 - KnowledgeExtractor.extract_knowledge()

4. Large Classes (Too Many Responsibilities)

src/pipeline.py - DDSessionProcessor (2,200+ lines, lines 117-2335)

src/diarizer.py - SpeakerDiarizer (480+ lines, lines 247-767)

src/classifier.py - OllamaClassifier (320 lines, lines 196-516)

5. Long Parameter Lists (4+ parameters)

src/pipeline.py:138-151 - DDSessionProcessor.__init__() - 11 parameters

src/pipeline.py:1503-1512 - process() - 6 parameters

src/formatter.py:266-274 - save_all_formats() - 6 parameters

src/classifier.py:71-78 - _build_prompt() - 5 parameters

6. Magic Numbers

src/chunker.py

src/diarizer.py

src/classifier.py

Other Files

7. Dead Code & Unused Imports

src/pipeline.py:25-28 - Mock Import

src/diarizer.py:23-34 - Warning Suppression

src/diarizer.py:36-92 - Torchaudio Backend Patching

src/classifier.py:17-20 - Optional Groq Import

8. Poor Naming

Unclear Variable Names

src/pipeline.py:356 - State Tracking Dictionary

src/chunker.py:236 - Unexplained Magic Multiplier

Inconsistent Naming

Backend Naming

Classification Constants

9. Error Handling Issues

Inconsistent Error Handling

src/pipeline.py - Mixed Error Strategies

Broad Exception Catching

src/knowledge_base.py:250-258

src/diarizer.py:361-362

src/party_config.py:61-63

Missing Error Context

src/classifier.py:324-339 - Multiple Error Handlers

10. Type Issues

Missing Type Hints

src/diarizer.py:318-332 - _load_component() Function

src/classifier.py:353-358 - _default_generation_options()

Overuse of Any

src/pipeline.py - Extensive Dict[str, Any] Usage

src/formatter.py:225-227, 237 - Metadata Type

Inconsistent Optional Handling

src/transcriber.py:21

11. Code Organization

Files That Are Too Long

Unclear Module Structure

`src/pipeline.py:1503-2126` - `DDSessionProcessor.process()` method (~623 lines)

`src/pipeline.py:2127-2297` - `DDSessionProcessor.process_from_intermediate()` method (~170 lines)

`src/diarizer.py:264-370` - `SpeakerDiarizer._load_pipeline_if_needed()` (~106 lines)

`src/classifier.py:265-340` - Classification with retry logic (~90 lines combined)

`src/knowledge_base.py:318-384` - `CampaignKnowledgeBase.merge_new_knowledge()` (~66 lines)

`src/diarizer.py`

`src/transcriber.py`

`src/transcriber.py` - Nearly Identical API Transcriber Classes

`src/pipeline.py` - Repeated Checkpoint Loading Pattern

`src/diarizer.py` - Token Verification Logic

`src/pipeline.py:1503-2126` - `process()` method

`src/diarizer.py:264-370` - `_load_pipeline_if_needed()`

`src/classifier.py:320-340` - `_generate_with_retry()`

`src/knowledge_base.py:88-258` - `KnowledgeExtractor.extract_knowledge()`

`src/pipeline.py` - `DDSessionProcessor` (2,200+ lines, lines 117-2335)

`src/diarizer.py` - `SpeakerDiarizer` (480+ lines, lines 247-767)

`src/classifier.py` - `OllamaClassifier` (320 lines, lines 196-516)

`src/pipeline.py:138-151` - `DDSessionProcessor.init()` - 11 parameters

`src/pipeline.py:1503-1512` - `process()` - 6 parameters

`src/formatter.py:266-274` - `save_all_formats()` - 6 parameters

`src/classifier.py:71-78` - `_build_prompt()` - 5 parameters

`src/chunker.py`

`src/diarizer.py`

`src/classifier.py`

`src/pipeline.py:25-28` - Mock Import

`src/diarizer.py:23-34` - Warning Suppression

`src/diarizer.py:36-92` - Torchaudio Backend Patching

`src/classifier.py:17-20` - Optional Groq Import

`src/pipeline.py:356` - State Tracking Dictionary

`src/chunker.py:236` - Unexplained Magic Multiplier

`src/pipeline.py` - Mixed Error Strategies

`src/knowledge_base.py:250-258`

`src/diarizer.py:361-362`

`src/party_config.py:61-63`

`src/classifier.py:324-339` - Multiple Error Handlers

`src/diarizer.py:318-332` - `_load_component()` Function

`src/classifier.py:353-358` - `_default_generation_options()`

`src/pipeline.py` - Extensive `Dict[str, Any]` Usage

`src/formatter.py:225-227, 237` - Metadata Type

`src/transcriber.py:21`

`src/pipeline.py:1399-1437` - Helper Methods

`src/diarizer.py:66-78` - Torchaudio Compatibility

`src/formatter.py:1-25`

`src/pipeline.py:34-60`