Updates to allow correlated errors from var.pkl file

KriFos1 · KriFos1 · commit 6401e6e953be · 2026-02-09T10:23:00.000+01:00
diff --git a/pipt/loop/ensemble.py b/pipt/loop/ensemble.py
@@ -448,6 +448,8 @@ def _org_data_var(self):
                                     self.datavar[i][datatype[j]].append(var_value[c])
                                 else:
                                     self.datavar[i][datatype[j]].append(var_value)
+                            elif datavar[i][datatype[j]][0].lower() == 'emp':
+                                self.datavar[i][datatype[j]].append(datavar[i][datatype[j]][1])
                             else:
                                 print('\n\033[1;31mERROR: Cannot read data variance from pkl file! The first entry in the pkl file must be either "rel" or "abs"!\033[1;m')
                                 sys.exit()
@@ -541,12 +543,17 @@ def set_observations(self):
                 # enObs: samples from N(0,Cd)
                 enObs = cholesky(self.cov_data).T @ np.random.randn(self.cov_data.shape[0], self.ne)
             else:
-                enObs = at.extract_tot_empirical_cov(
-                    self.datavar, 
-                    self.assim_index, 
-                    self.list_datatypes, 
-                    self.ne
-                )
+                # Extract assim indices
+                if isinstance(self.assim_index[1], list):
+                    l_prim = [int(x) for x in self.assim_index[1]]
+                else:
+                    l_prim = [int(self.assim_index[1])]
+                
+                # Concatenate datavar in the same manner as aug_obs_pred_data
+                enObs = np.concatenate(tuple(
+                    self.datavar[el][dat] for el in l_prim for dat in self.list_datatypes 
+                    if self.datavar[el][dat] is not None
+                ))
 
             # Screen data if required
             if ('screendata' in self.keys_da) and (self.keys_da['screendata'] == 'yes'):
@@ -558,7 +565,7 @@ def set_observations(self):
                 )
             
             # Center the ensemble of perturbed observed data
-            enObs = vecObs[:, np.newaxis] - enObs
+            # enObs = vecObs[:, np.newaxis] - enObs
             self.cov_data = np.var(enObs, ddof=1, axis=1)
             self.scale_data = np.sqrt(self.cov_data)
         
diff --git a/pipt/update_schemes/enkf.py b/pipt/update_schemes/enkf.py
@@ -40,7 +40,11 @@ def __init__(self, keys_da, keys_en, sim):
 
             # At the moment, the iterative loop is threated as an iterative smoother an thus we check if assim. indices
             # are given as in the Simultaneous loop.
-            self.check_assimindex_sequential()
+            self.check_assimindex_simultaneous()
+
+            self.assim_index = [self.keys_da['obsname'], self.keys_da['assimindex'][0]]
+            self.list_datatypes, self.list_act_datatypes = at.get_list_data_types(self.obs_data, self.assim_index)
+
 
             # Extract no. assimilation steps from MDA keyword in DATAASSIM part of init. file and set this equal to
             # the number of iterations pluss one. Need one additional because the iter=0 is the prior run.
@@ -56,11 +60,11 @@ def __init__(self, keys_da, keys_en, sim):
             else:
                 self.trunc_energy = 0.98
 
-            self.state_scaling = at.calc_scaling(
-                self.prior_enX, 
-                self.list_states, 
-                self.prior_info
-            )
+            # Get the perturbed observations and observation scaling
+            self.vecObs, self.enObs = self.set_observations()
+            self.enObs_conv = deepcopy(self.enObs)
+
+            self._ext_scaling()
 
     def calc_analysis(self):
         """
@@ -74,32 +78,32 @@ def calc_analysis(self):
                 np.concatenate(self.keys_da['assimindex']))]
             list_datatypes, list_active_dataypes = at.get_list_data_types(
                 self.obs_data, assim_index)
-            if not hasattr(self, 'cov_data'):
-                self.full_cov_data = at.gen_covdata(
-                    self.datavar, assim_index, list_datatypes)
-            else:
-                self.full_cov_data = self.cov_data
-
-            #obs_data_vector, pred_data = at.aug_obs_pred_data(
-            #    self.obs_data, self.pred_data, assim_index, list_datatypes)
+            # if not hasattr(self, 'cov_data'):
+            #     self.full_cov_data = at.gen_covdata(
+            #         self.datavar, assim_index, list_datatypes)
+            # else:
+            #     self.full_cov_data = self.cov_data
+
+            # #obs_data_vector, pred_data = at.aug_obs_pred_data(
+            # #    self.obs_data, self.pred_data, assim_index, list_datatypes)
             
-            vecObs, enPred = at.aug_obs_pred_data(
+            _, enPred = at.aug_obs_pred_data(
                 self.obs_data, 
                 self.pred_data, 
                 assim_index, 
                 list_datatypes
             )
 
-            # Generate realizations of the observed data
-            generator = Cholesky()  # Initialize GeoStat class for generating realizations
-            self.enObs = generator.gen_real(
-                vecObs, 
-                self.full_cov_data, 
-                self.ne
-            )
+            # # Generate realizations of the observed data
+            # generator = Cholesky()  # Initialize GeoStat class for generating realizations
+            # self.enObs = generator.gen_real(
+            #     vecObs, 
+            #     self.full_cov_data, 
+            #     self.ne
+            # )
 
             # Calc. misfit for the initial iteration
-            data_misfit = at.calc_objectivefun(self.enObs, enPred, self.full_cov_data)
+            data_misfit = at.calc_objectivefun(self.enObs, enPred, self.scale_data)
 
             # Store the (mean) data misfit (also for conv. check)
             self.data_misfit = np.mean(data_misfit)
@@ -119,27 +123,36 @@ def calc_analysis(self):
             self.obs_data, self.assim_index)
 
         # Augment observed and predicted data
-        self.vecObs, self.enPred = at.aug_obs_pred_data(
-            self.obs_data, 
-            self.pred_data, 
-            self.assim_index,
-            self.list_datatypes
-        )
-        
-        self.cov_data = at.gen_covdata(
-            self.datavar, 
-            self.assim_index, 
-            self.list_datatypes
-        )
-
-        generator = Cholesky()  # Initialize GeoStat class for generating realizations
-        self.data_random_state = deepcopy(np.random.get_state())
-        self.enObs, self.scale_data = generator.gen_real(
-            self.vecObs, 
-            self.cov_data, 
-            self.ne,
-            return_chol=True
-        )
+        if ('emp_cov' in self.keys_da) and (self.keys_da['emp_cov'] == 'yes'):
+            _, self.enPred = at.aug_obs_pred_data(
+                self.obs_data, 
+                self.pred_data, 
+                self.assim_index,
+                self.list_datatypes
+            )
+        else:
+            self.vecObs, self.enPred = at.aug_obs_pred_data(
+                self.obs_data, 
+                self.pred_data, 
+                self.assim_index,
+                self.list_datatypes
+            )
+            
+            self.cov_data = at.gen_covdata(
+                self.datavar, 
+                self.assim_index, 
+                self.list_datatypes
+            )
+
+            generator = Cholesky()  # Initialize GeoStat class for generating realizations
+            self.data_random_state = deepcopy(np.random.get_state())
+            self.enObs, self.scale_data = generator.gen_real(
+                self.vecObs, 
+                self.cov_data, 
+                self.ne,
+                return_chol=True
+            )
+
         self.E = np.dot(self.enObs, self.proj)
 
         if 'localanalysis' in self.keys_da:
diff --git a/pipt/update_schemes/es.py b/pipt/update_schemes/es.py
@@ -52,7 +52,7 @@ def check_convergence(self):
                                                               list_datatypes)
 
             data_misfit = at.calc_objectivefun(
-                self.full_real_obs_data, pred_data, self.full_cov_data)
+                self.enObs, pred_data, self.scale_data)
             self.data_misfit = np.mean(data_misfit)
             self.data_misfit_std = np.std(data_misfit)
 
diff --git a/pipt/update_schemes/update_methods_ns/approx_update.py b/pipt/update_schemes/update_methods_ns/approx_update.py
@@ -189,34 +189,34 @@ def update(self, enX, enY, enE, **kwargs):
 
         else:
 
-            if ('emp_cov' in self.keys_da) and (self.keys_da['emp_cov'] == 'yes'):
+            # if ('emp_cov' in self.keys_da) and (self.keys_da['emp_cov'] == 'yes'):
                 
-                # Scale and center the ensemble matrecies: enX and enE
-                enXcentered = self.scale(enX - np.mean(enX, 1)[:,None], self.state_scaling)
-                enEcentered = self.scale(enE - np.mean(enE, 1)[:,None], self.scale_data)
-
-                Sinv = np.diag(1/Sd)
-                X0 = Sinv @ Ud.T @ enEcentered
-                eigval, eigvec = np.linalg.eig(X0 @ X0.T)
-
-                # Calculate and scale difference between observations and predictions (residuals)
-                enRes = self.scale(enE - enY, self.scale_data)
-
-                # Compute the update step
-                X1 = (Ud @ Sinv @ eigvec).T @ enRes
-                X2 = solve((self.lam + 1) * np.diag(eigval) + np.eye(len(eigval)), X1)
-                X3 = np.dot(VTd.T, eigvec) @ X2
-                self.step = np.dot(self.state_scaling[:, None]*enXcentered, X3)
+            #     # Scale and center the ensemble matrecies: enX and enE
+            #     enXcentered = self.scale(enX - np.mean(enX, 1)[:,None], self.state_scaling)
+            #     enEcentered = self.scale(enE - np.mean(enE, 1)[:,None], self.scale_data)
+
+            #     Sinv = np.diag(1/Sd)
+            #     X0 = Sinv @ Ud.T @ enEcentered
+            #     eigval, eigvec = np.linalg.eig(X0 @ X0.T)
+
+            #     # Calculate and scale difference between observations and predictions (residuals)
+            #     enRes = self.scale(enE - enY, self.scale_data)
+
+            #     # Compute the update step
+            #     X1 = (Ud @ Sinv @ eigvec).T @ enRes
+            #     X2 = solve((self.lam + 1) * np.diag(eigval) + np.eye(len(eigval)), X1)
+            #     X3 = np.dot(VTd.T, eigvec) @ X2
+            #     self.step = np.dot(self.state_scaling[:, None]*enXcentered, X3)
  
-            else:
-                enXcentered = self.scale(np.dot(enX, self.proj), self.state_scaling)
-                enRes = self.scale(enE - enY, self.scale_data)
-                
-                # Compute the update step
-                X1 = Ud.T @ enRes
-                X2 = solve((self.lam + 1)*np.eye(Sd.size) + np.diag(Sd**2), X1)
-                X3 = VTd.T @ np.diag(Sd) @ X2
-                self.step = np.dot(self.state_scaling[:, None] * enXcentered, X3)
+            # else:
+            enXcentered = self.scale(np.dot(enX, self.proj), self.state_scaling)
+            enRes = self.scale(enE - enY, self.scale_data)
+            
+            # Compute the update step
+            X1 = Ud.T @ enRes
+            X2 = solve((self.lam + 1)*np.eye(Sd.size) + np.diag(Sd**2), X1)
+            X3 = VTd.T @ np.diag(Sd) @ X2
+            self.step = np.dot(self.state_scaling[:, None] * enXcentered, X3)
 
 
     def scale(self, data, scaling):