huggingface · xodn348 · May 22, 2026
diff --git a/src/evaluate/__init__.py b/src/evaluate/__init__.py
@@ -45,7 +45,15 @@
 from .info import ComparisonInfo, EvaluationModuleInfo, MeasurementInfo, MetricInfo
 from .inspect import inspect_evaluation_module, list_evaluation_modules
 from .loading import load
-from .module import CombinedEvaluations, Comparison, EvaluationModule, Measurement, Metric, combine
+from .module import (
+    CombinedEvaluations,
+    Comparison,
+    EvaluationModule,
+    EvaluationModuleError,
+    Measurement,
+    Metric,
+    combine,
+)
 from .saving import save
 from .utils import *
 from .utils import gradio, logging
diff --git a/src/evaluate/module.py b/src/evaluate/module.py
@@ -13,7 +13,8 @@
 # limitations under the License.
 
 # Lint as: python3
-""" EvaluationModule base class."""
+"""EvaluationModule base class."""
+
 import collections
 import itertools
 import os
@@ -41,6 +42,10 @@
 logger = get_logger(__name__)
 
 
+class EvaluationModuleError(Exception):
+    """Raised when an EvaluationModule's compute step fails."""
+
+
 class FileFreeLock(BaseFileLock):
     """Thread lock until a file **cannot** be locked"""
 
@@ -464,7 +469,12 @@ def compute(self, *, predictions=None, references=None, **kwargs) -> Optional[di
 
             inputs = {input_name: self.data[input_name][:] for input_name in self._feature_names()}
             with temp_seed(self.seed):
-                output = self._compute(**inputs, **compute_kwargs)
+                try:
+                    output = self._compute(**inputs, **compute_kwargs)
+                except EvaluationModuleError:
+                    raise
+                except Exception as e:
+                    raise EvaluationModuleError(f"Metric '{self.name}' computation failed: {e}") from e
 
             if self.buf_writer is not None:
                 self.buf_writer = None