WayScience · MattsonCam · May 28, 2026 · wli51 · May 29, 2026 · wli51
diff --git a/callbacks/evaluation.py b/callbacks/evaluation.py
@@ -105,12 +105,16 @@ def _evaluate_split(
                 ):
                     break
 
+        loss_metric_data = self.loss.compute()
         split_metric_data = {
-            f"{self.loss.metric_name}_{data_split}": self.loss.compute().item(),
+            f"{metric_name}_{data_split}": metric_value
+            for metric_name, metric_value in loss_metric_data.items()
         }
         self.loss.reset()
         for metric in self.metrics:
-            split_metric_data[f"{metric.metric_name}_{data_split}"] = metric.compute().item()
+            metric_data = metric.compute()
+            for metric_name, metric_value in metric_data.items():
+                split_metric_data[f"{metric_name}_{data_split}"] = metric_value
             metric.reset()
 
         return split_metric_data
diff --git a/metrics/AbstractMetric.py b/metrics/AbstractMetric.py
@@ -21,8 +21,8 @@ def update(self, generated_predictions: torch.Tensor, targets: torch.Tensor, **k
         pass
 
     @abstractmethod
-    def compute(self) -> torch.Tensor:
-        """Compute the current aggregated metric value without resetting state."""
+    def compute(self) -> dict[str, float]:
+        """Compute current aggregated metric stats without resetting state."""
 
         pass
 

diff --git a/metrics/DISTS.py b/metrics/DISTS.py
@@ -77,17 +77,20 @@ def update(self, generated_predictions: torch.Tensor, targets: torch.Tensor, **k
 
         self.forward(generated_predictions=generated_predictions, targets=targets, **kwargs)
 
-    def compute(self) -> torch.Tensor:
-        """Compute averaged DISTS for currently accumulated state.
+    def compute(self) -> dict[str, float]:
+        """Compute averaged DISTS and std for current state.
 
         Returns:
-            Scalar tensor with current DISTS value.
+            Dictionary containing mean and std metric values.
         """
 
         average_dists = self.dists_metric.compute().to(self.device)
         if not torch.isfinite(average_dists):
             average_dists = torch.tensor(0.0, device=self.device)
-        return average_dists
+        return {
+            self.metric_name: average_dists.item(),
+            f"{self.metric_name}_std": 0.0,
+        }
 
     @property
     def metric_name(self) -> str:
@@ -96,8 +99,8 @@ def metric_name(self) -> str:
         return "dists_total"
 
     def get_metric_data(self) -> dict[str, float]:
-        """Backward-compatible helper that computes and resets state."""
+        """Compute metric stats and reset state."""
 
-        metric_data = {self.metric_name: self.compute().item()}
+        metric_data = self.compute()
         self.reset()
         return metric_data
diff --git a/metrics/L1.py b/metrics/L1.py
@@ -31,6 +31,7 @@ def reset(self):
         """Reset running L1 accumulators used for epoch-level logging."""
 
         self.total_abs_error = torch.tensor(0.0, device=self.device)
+        self.total_abs_error_sq = torch.tensor(0.0, device=self.device)
         self.total_examples = torch.tensor(0.0, device=self.device)
 
     def forward(
@@ -58,6 +59,7 @@ def forward(
         per_sample_l1 = abs_error.mean(dim=1)
 
         self.total_abs_error += per_sample_l1.sum().detach().to(self.device)
+        self.total_abs_error_sq += per_sample_l1.pow(2).sum().detach().to(self.device)
         self.total_examples += torch.tensor(
             per_sample_l1.numel(),
             dtype=torch.float32,
@@ -70,21 +72,33 @@ def update(self, generated_predictions: torch.Tensor, targets: torch.Tensor, **k
 
         self.forward(generated_predictions=generated_predictions, targets=targets, **kwargs)
 
-    def compute(self) -> torch.Tensor:
-        """Compute averaged L1 value for currently accumulated state.
+    def compute(self) -> dict[str, float]:
+        """Compute averaged L1 and population std for current state.
 
         Returns:
-            Scalar tensor with current L1 value.
+            Dictionary containing mean and std metric values.
         """
 
         average_l1 = torch.where(
             self.total_examples > 0,
             self.total_abs_error / self.total_examples,
             torch.tensor(0.0, device=self.device),
         )
+        variance_l1 = torch.where(
+            self.total_examples > 0,
+            (self.total_abs_error_sq / self.total_examples) - average_l1.pow(2),
+            torch.tensor(0.0, device=self.device),
+        )
+        std_l1 = torch.sqrt(torch.clamp(variance_l1, min=0.0))
         if not torch.isfinite(average_l1):
             average_l1 = torch.tensor(0.0, device=self.device)
-        return average_l1
+        if not torch.isfinite(std_l1):
+            std_l1 = torch.tensor(0.0, device=self.device)
+
+        return {
+            self.metric_name: average_l1.item(),
+            f"{self.metric_name}_std": std_l1.item(),
+        }
 
     @property
     def metric_name(self) -> str:
@@ -93,8 +107,8 @@ def metric_name(self) -> str:
         return "l1_total"
 
     def get_metric_data(self) -> dict[str, float]:
-        """Backward-compatible helper that computes and resets state."""
+        """Compute metric stats and reset state."""
 
-        metric_data = {self.metric_name: self.compute().item()}
+        metric_data = self.compute()
         self.reset()
         return metric_data
diff --git a/metrics/L2.py b/metrics/L2.py
@@ -31,6 +31,7 @@ def reset(self):
         """Reset running squared-error accumulators."""
 
         self.total_squared_error = torch.tensor(0.0, device=self.device)
+        self.total_squared_error_sq = torch.tensor(0.0, device=self.device)
         self.total_examples = torch.tensor(0.0, device=self.device)
 
     def forward(
@@ -58,6 +59,7 @@ def forward(
         per_sample_l2 = sq_error.mean(dim=1)
 
         self.total_squared_error += per_sample_l2.sum().detach().to(self.device)
+        self.total_squared_error_sq += per_sample_l2.pow(2).sum().detach().to(self.device)
         self.total_examples += torch.tensor(
             per_sample_l2.numel(),
             dtype=torch.float32,
@@ -70,21 +72,33 @@ def update(self, generated_predictions: torch.Tensor, targets: torch.Tensor, **k
 
         self.forward(generated_predictions=generated_predictions, targets=targets, **kwargs)
 
-    def compute(self) -> torch.Tensor:
-        """Compute averaged L2 value for currently accumulated state.
+    def compute(self) -> dict[str, float]:
+        """Compute averaged L2 and population std for current state.
 
         Returns:
-            Scalar tensor with current L2 value.
+            Dictionary containing mean and std metric values.
         """
 
         average_l2 = torch.where(
             self.total_examples > 0,
             self.total_squared_error / self.total_examples,
             torch.tensor(0.0, device=self.device),
         )
+        variance_l2 = torch.where(
+            self.total_examples > 0,
+            (self.total_squared_error_sq / self.total_examples) - average_l2.pow(2),
+            torch.tensor(0.0, device=self.device),
+        )
+        std_l2 = torch.sqrt(torch.clamp(variance_l2, min=0.0))
         if not torch.isfinite(average_l2):
             average_l2 = torch.tensor(0.0, device=self.device)
-        return average_l2
+        if not torch.isfinite(std_l2):
+            std_l2 = torch.tensor(0.0, device=self.device)
+
+        return {
+            self.metric_name: average_l2.item(),
+            f"{self.metric_name}_std": std_l2.item(),
+        }
 
     @property
     def metric_name(self) -> str:
@@ -93,8 +107,8 @@ def metric_name(self) -> str:
         return "l2_total"
 
     def get_metric_data(self) -> dict[str, float]:
-        """Backward-compatible helper that computes and resets state."""
+        """Compute metric stats and reset state."""
 
-        metric_data = {self.metric_name: self.compute().item()}
+        metric_data = self.compute()
         self.reset()
         return metric_data
diff --git a/metrics/LPIPS.py b/metrics/LPIPS.py
@@ -87,17 +87,20 @@ def update(self, generated_predictions: torch.Tensor, targets: torch.Tensor, **k
 
         self.forward(generated_predictions=generated_predictions, targets=targets, **kwargs)
 
-    def compute(self) -> torch.Tensor:
-        """Compute averaged LPIPS for currently accumulated state.
+    def compute(self) -> dict[str, float]:
+        """Compute averaged LPIPS and std for current state.
 
         Returns:
-            Scalar tensor with current LPIPS value.
+            Dictionary containing mean and std metric values.
         """
 
         average_lpips = self.lpips_metric.compute().to(self.device)
         if not torch.isfinite(average_lpips):
             average_lpips = torch.tensor(0.0, device=self.device)
-        return average_lpips
+        return {
+            self.metric_name: average_lpips.item(),
+            f"{self.metric_name}_std": 0.0,
+        }
 
     @property
     def metric_name(self) -> str:
@@ -106,8 +109,8 @@ def metric_name(self) -> str:
         return "lpips_total"
 
     def get_metric_data(self) -> dict[str, float]:
-        """Backward-compatible helper that computes and resets state."""
+        """Compute metric stats and reset state."""
 
-        metric_data = {self.metric_name: self.compute().item()}
+        metric_data = self.compute()
         self.reset()
         return metric_data
diff --git a/metrics/PSNR.py b/metrics/PSNR.py
@@ -34,7 +34,7 @@ def __init__(
         )
         self.psnr_metric = PeakSignalNoiseRatio(
             data_range=max_pixel_value,
-            reduction="elementwise_mean",
+            reduction="none",
             dim=(1, 2, 3),
         ).to(self.device)
         self.reset()
@@ -43,6 +43,9 @@ def reset(self):
         """Reset running PSNR accumulators."""
 
         self.psnr_metric.reset()
+        self.total_psnr = torch.tensor(0.0, device=self.device)
+        self.total_psnr_sq = torch.tensor(0.0, device=self.device)
+        self.total_examples = torch.tensor(0.0, device=self.device)
 
     def forward(
         self,
@@ -65,24 +68,54 @@ def forward(
             raise ValueError("The generated predictions and targets must be the same shape.")
 
         self.psnr_metric.update(generated_predictions, targets)
+        per_sample_psnr = self.psnr_metric.compute().to(self.device).reshape(-1)
+        self.psnr_metric.reset()
+        finite_psnr = torch.where(
+            torch.isfinite(per_sample_psnr),
+            per_sample_psnr,
+            torch.tensor(self.nonfinite_cap, device=self.device),
+        )
+        self.total_psnr += finite_psnr.sum().detach()
+        self.total_psnr_sq += finite_psnr.pow(2).sum().detach()
+        self.total_examples += torch.tensor(
+            finite_psnr.numel(),
+            dtype=torch.float32,
+            device=self.device,
+        )
         return None
 
     def update(self, generated_predictions: torch.Tensor, targets: torch.Tensor, **kwargs) -> None:
         """Alias for state updates to align with TorchMetrics-like API."""
 
         self.forward(generated_predictions=generated_predictions, targets=targets, **kwargs)
 
-    def compute(self) -> torch.Tensor:
-        """Compute averaged PSNR for currently accumulated state.
+    def compute(self) -> dict[str, float]:
+        """Compute averaged PSNR and population std for current state.
 
         Returns:
-            Scalar tensor with current PSNR value.
+            Dictionary containing mean and std metric values.
         """
 
-        average_psnr = self.psnr_metric.compute().to(self.device)
+        average_psnr = torch.where(
+            self.total_examples > 0,
+            self.total_psnr / self.total_examples,
+            torch.tensor(0.0, device=self.device),
+        )
+        variance_psnr = torch.where(
+            self.total_examples > 0,
+            (self.total_psnr_sq / self.total_examples) - average_psnr.pow(2),
+            torch.tensor(0.0, device=self.device),
+        )
+        std_psnr = torch.sqrt(torch.clamp(variance_psnr, min=0.0))
         if not torch.isfinite(average_psnr):
             average_psnr = torch.tensor(self.nonfinite_cap, device=self.device)
-        return average_psnr
+        if not torch.isfinite(std_psnr):
+            std_psnr = torch.tensor(0.0, device=self.device)
+
+        return {
+            self.metric_name: average_psnr.item(),
+            f"{self.metric_name}_std": std_psnr.item(),
+        }
 
     @property
     def metric_name(self) -> str:
@@ -91,8 +124,8 @@ def metric_name(self) -> str:
         return "psnr_total"
 
     def get_metric_data(self) -> dict[str, float]:
-        """Backward-compatible helper that computes and resets state."""
+        """Compute metric stats and reset state."""
 
-        metric_data = {self.metric_name: self.compute().item()}
+        metric_data = self.compute()
         self.reset()
         return metric_data
diff --git a/metrics/PearsonCorrelation.py b/metrics/PearsonCorrelation.py
@@ -31,6 +31,7 @@ def reset(self):
         """Reset running Pearson correlation accumulators."""
 
         self.total_pearson = torch.tensor(0.0, device=self.device)
+        self.total_pearson_sq = torch.tensor(0.0, device=self.device)
         self.total_examples = torch.tensor(0.0, device=self.device)
 
     def forward(
@@ -75,6 +76,7 @@ def forward(
         )
 
         self.total_pearson += per_sample_pearson.sum().detach()
+        self.total_pearson_sq += per_sample_pearson.pow(2).sum().detach()
         self.total_examples += torch.tensor(
             per_sample_pearson.shape[0],
             dtype=torch.float32,
@@ -87,21 +89,33 @@ def update(self, generated_predictions: torch.Tensor, targets: torch.Tensor, **k
 
         self.forward(generated_predictions=generated_predictions, targets=targets, **kwargs)
 
-    def compute(self) -> torch.Tensor:
-        """Compute averaged Pearson correlation for currently accumulated state.
+    def compute(self) -> dict[str, float]:
+        """Compute averaged Pearson and population std for current state.
 
         Returns:
-            Scalar tensor with current Pearson correlation value.
+            Dictionary containing mean and std metric values.
         """
 
         average_pearson = torch.where(
             self.total_examples > 0,
             self.total_pearson / self.total_examples,
             torch.tensor(0.0, device=self.device),
         )
+        variance_pearson = torch.where(
+            self.total_examples > 0,
+            (self.total_pearson_sq / self.total_examples) - average_pearson.pow(2),
+            torch.tensor(0.0, device=self.device),
+        )
+        std_pearson = torch.sqrt(torch.clamp(variance_pearson, min=0.0))
         if not torch.isfinite(average_pearson):
             average_pearson = torch.tensor(0.0, device=self.device)
-        return average_pearson
+        if not torch.isfinite(std_pearson):
+            std_pearson = torch.tensor(0.0, device=self.device)
+
+        return {
+            self.metric_name: average_pearson.item(),
+            f"{self.metric_name}_std": std_pearson.item(),
+        }
 
     @property
     def metric_name(self) -> str:
@@ -110,8 +124,8 @@ def metric_name(self) -> str:
         return "pearson_total"
 
     def get_metric_data(self) -> dict[str, float]:
-        """Backward-compatible helper that computes and resets state."""
+        """Compute metric stats and reset state."""
 
-        metric_data = {self.metric_name: self.compute().item()}
+        metric_data = self.compute()
         self.reset()
         return metric_data