AliceO2Group
diff --git a/‎Common/ML/include/ML/3rdparty/GPUORTFloat16.h‎
Lines changed: 6 additions & 1 deletion b/‎Common/ML/include/ML/3rdparty/GPUORTFloat16.h‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎Common/ML/include/ML/OrtInterface.h‎
Lines changed: 2 additions & 5 deletions b/‎Common/ML/include/ML/OrtInterface.h‎
Lines changed: 2 additions & 5 deletions
diff --git a/‎Common/ML/src/OrtInterface.cxx‎
Lines changed: 38 additions & 144 deletions b/‎Common/ML/src/OrtInterface.cxx‎
Lines changed: 38 additions & 144 deletions
diff --git a/‎GPU/GPUTracking/Base/GPUConstantMem.h‎
Lines changed: 7 additions & 0 deletions b/‎GPU/GPUTracking/Base/GPUConstantMem.h‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎GPU/GPUTracking/Base/GPUReconstruction.cxx‎
Lines changed: 3 additions & 0 deletions b/‎GPU/GPUTracking/Base/GPUReconstruction.cxx‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎GPU/GPUTracking/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion b/‎GPU/GPUTracking/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎GPU/GPUTracking/Definitions/GPUDefGPUParameters.h‎
Lines changed: 11 additions & 11 deletions b/‎GPU/GPUTracking/Definitions/GPUDefGPUParameters.h‎
Lines changed: 11 additions & 11 deletions
diff --git a/‎GPU/GPUTracking/Global/GPUChainTracking.cxx‎
Lines changed: 6 additions & 0 deletions b/‎GPU/GPUTracking/Global/GPUChainTracking.cxx‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx‎
Lines changed: 43 additions & 35 deletions b/‎GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx‎
Lines changed: 43 additions & 35 deletions
diff --git a/‎GPU/GPUTracking/TPCClusterFinder/GPUTPCClusterFinder.h‎
Lines changed: 0 additions & 36 deletions b/‎GPU/GPUTracking/TPCClusterFinder/GPUTPCClusterFinder.h‎
Lines changed: 0 additions & 36 deletions
@@ -5,6 +5,9 @@
 //    - https://github.com/microsoft/onnxruntime/blob/main/include/onnxruntime/core/session/onnxruntime_float16.h
 //    - https://github.com/microsoft/onnxruntime/blob/main/include/onnxruntime/core/session/onnxruntime_cxx_api.h
 
+#ifndef GPUORTFLOAT16_H
+#define GPUORTFLOAT16_H
+
 #ifndef GPUCA_GPUCODE_DEVICE
 #include <stdint.h>
 #include <cmath>
@@ -868,4 +871,6 @@ static_assert(sizeof(BFloat16_t) == sizeof(uint16_t), "Sizes must match");
 
 } // namespace OrtDataType
 
-} // namespace o2
+} // namespace o2
+
+#endif
@@ -53,15 +53,12 @@ class OrtModel
   template <class I, class O> // class I is the input data type, e.g. float, class O is the output data type, e.g. OrtDataType::Float16_t from O2/Common/ML/include/ML/GPUORTFloat16.h
   std::vector<O> inference(std::vector<I>&);
 
-  template <class I, class O> // class I is the input data type, e.g. float, class O is the output data type, e.g. OrtDataType::Float16_t from O2/Common/ML/include/ML/GPUORTFloat16.h
-  O* inference(I*, size_t);
+  template <class I, class O> // class I is the input data type, e.g. float, class O is the output data type, e.g. O2::gpu::OrtDataType::Float16_t from O2/GPU/GPUTracking/ML/convert_float16.h
+  std::vector<O> inference(std::vector<std::vector<I>>&);
 
   template <class I, class O> // class I is the input data type, e.g. float, class O is the output data type, e.g. OrtDataType::Float16_t from O2/Common/ML/include/ML/GPUORTFloat16.h
   void inference(I*, size_t, O*);
 
-  template <class I, class O> // class I is the input data type, e.g. float, class O is the output data type, e.g. O2::gpu::OrtDataType::Float16_t from O2/GPU/GPUTracking/ML/convert_float16.h
-  std::vector<O> inference(std::vector<std::vector<I>>&);
-
   // template<class I, class T, class O> // class I is the input data type, e.g. float, class T the throughput data type and class O is the output data type
   // std::vector<O> inference(std::vector<I>&);
 
 
@@ -34,6 +34,10 @@
 #include "GPUKernelDebugOutput.h"
 #endif
 
+#ifdef GPUCA_HAS_ONNX
+#include "GPUTPCNNClusterizer.h"
+#endif
+
 namespace o2::gpu
 {
 struct GPUConstantMem {
@@ -55,6 +59,9 @@ struct GPUConstantMem {
 #ifdef GPUCA_KERNEL_DEBUGGER_OUTPUT
   GPUKernelDebugOutput debugOutput;
 #endif
+#ifdef GPUCA_HAS_ONNX
+  GPUTPCNNClusterizer tpcNNClusterer[GPUCA_NSECTORS];
+#endif
 
   template <int32_t I>
   GPUd() auto& getTRDTracker();
 
@@ -93,6 +93,9 @@ GPUReconstruction::GPUReconstruction(const GPUSettingsDeviceBackend& cfg) : mHos
   for (uint32_t i = 0; i < NSECTORS; i++) {
     processors()->tpcTrackers[i].SetSector(i); // TODO: Move to a better place
     processors()->tpcClusterer[i].mISector = i;
+#ifdef GPUCA_HAS_ONNX
+    processors()->tpcNNClusterer[i].mISector = i;
+#endif
   }
 #ifndef GPUCA_NO_ROOT
   mROOTDump = GPUROOTDumpCore::getAndCreate();
 
@@ -193,7 +193,7 @@ set(SRCS_NO_CINT ${SRCS_NO_CINT}
   Merger/GPUTPCGMO2Output.cxx)
 
 if(NOT ALIGPU_BUILD_TYPE STREQUAL "Standalone")
-  list(APPEND SRCS_NO_CINT TPCClusterFinder/GPUTPCNNClusterizer.cxx TPCClusterFinder/GPUTPCNNClusterizerInternals.cxx)
+  list(APPEND SRCS_NO_CINT TPCClusterFinder/GPUTPCNNClusterizerKernels.cxx TPCClusterFinder/GPUTPCNNClusterizer.cxx TPCClusterFinder/GPUTPCNNClusterizerHost.cxx)
 endif()
 
 set(SRCS_DATATYPES
 
@@ -81,7 +81,7 @@
   #define GPUCA_LB_GPUTPCCFNoiseSuppression 512
   #define GPUCA_LB_GPUTPCCFDeconvolution 512
   #define GPUCA_LB_GPUTPCCFClusterizer 448
-  #define GPUCA_LB_GPUTPCNNClusterizer 448
+  #define GPUCA_LB_GPUTPCNNClusterizerKernels 448
   #define GPUCA_LB_COMPRESSION_GATHER 1024
   #define GPUCA_NEIGHBOURS_FINDER_MAX_NNEIGHUP 5
   #define GPUCA_TRACKLET_SELECTOR_HITS_REG_SIZE 20
@@ -148,7 +148,7 @@
   #define GPUCA_LB_GPUTPCCFNoiseSuppression 512
   #define GPUCA_LB_GPUTPCCFDeconvolution 512
   #define GPUCA_LB_GPUTPCCFClusterizer 512
-  #define GPUCA_LB_GPUTPCNNClusterizer 512
+  #define GPUCA_LB_GPUTPCNNClusterizerKernels 512
   #define GPUCA_LB_COMPRESSION_GATHER 1024
   #define GPUCA_NEIGHBOURS_FINDER_MAX_NNEIGHUP 5
   #define GPUCA_TRACKLET_SELECTOR_HITS_REG_SIZE 20
@@ -215,7 +215,7 @@
   #define GPUCA_LB_GPUTPCCFNoiseSuppression 448
   #define GPUCA_LB_GPUTPCCFDeconvolution 384
   #define GPUCA_LB_GPUTPCCFClusterizer 448
-  #define GPUCA_LB_GPUTPCNNClusterizer 448
+  #define GPUCA_LB_GPUTPCNNClusterizerKernels 448
   #define GPUCA_LB_COMPRESSION_GATHER 1024
   #define GPUCA_NEIGHBOURS_FINDER_MAX_NNEIGHUP 4
   #define GPUCA_TRACKLET_SELECTOR_HITS_REG_SIZE 20
@@ -492,8 +492,8 @@
   #ifndef GPUCA_LB_GPUTPCCFClusterizer
     #define GPUCA_LB_GPUTPCCFClusterizer 512
   #endif
-  #ifndef GPUCA_LB_GPUTPCNNClusterizer
-    #define GPUCA_LB_GPUTPCNNClusterizer 512
+  #ifndef GPUCA_LB_GPUTPCNNClusterizerKernels
+    #define GPUCA_LB_GPUTPCNNClusterizerKernels 512
   #endif
   #ifndef GPUCA_LB_GPUTrackingRefitKernel_mode0asGPU
     #define GPUCA_LB_GPUTrackingRefitKernel_mode0asGPU 256
@@ -515,12 +515,12 @@
 #define GPUCA_LB_GPUTPCCFNoiseSuppression_updatePeaks GPUCA_LB_GPUTPCCFNoiseSuppression
 
 #ifdef GPUCA_HAS_ONNX
-#define GPUCA_LB_GPUTPCNNClusterizer_runCfClusterizer GPUCA_LB_GPUTPCNNClusterizer
-#define GPUCA_LB_GPUTPCNNClusterizer_fillInputNN GPUCA_LB_GPUTPCNNClusterizer
-#define GPUCA_LB_GPUTPCNNClusterizer_determineClass1Labels GPUCA_LB_GPUTPCNNClusterizer
-#define GPUCA_LB_GPUTPCNNClusterizer_determineClass2Labels GPUCA_LB_GPUTPCNNClusterizer
-#define GPUCA_LB_GPUTPCNNClusterizer_publishClass1Regression GPUCA_LB_GPUTPCNNClusterizer
-#define GPUCA_LB_GPUTPCNNClusterizer_publishClass2Regression GPUCA_LB_GPUTPCNNClusterizer
+#define GPUCA_LB_GPUTPCNNClusterizerKernels_runCfClusterizer GPUCA_LB_GPUTPCNNClusterizerKernels
+#define GPUCA_LB_GPUTPCNNClusterizerKernels_fillInputNN GPUCA_LB_GPUTPCNNClusterizerKernels
+#define GPUCA_LB_GPUTPCNNClusterizerKernels_determineClass1Labels GPUCA_LB_GPUTPCNNClusterizerKernels
+#define GPUCA_LB_GPUTPCNNClusterizerKernels_determineClass2Labels GPUCA_LB_GPUTPCNNClusterizerKernels
+#define GPUCA_LB_GPUTPCNNClusterizerKernels_publishClass1Regression GPUCA_LB_GPUTPCNNClusterizerKernels
+#define GPUCA_LB_GPUTPCNNClusterizerKernels_publishClass2Regression GPUCA_LB_GPUTPCNNClusterizerKernels
 #endif
 
 #define GPUCA_LB_GPUTPCCFStreamCompaction_scanStart GPUCA_THREAD_COUNT_SCAN
 
@@ -104,6 +104,9 @@ void GPUChainTracking::RegisterPermanentMemoryAndProcessors()
   if (GetRecoSteps() & RecoStep::TPCClusterFinding) {
     for (uint32_t i = 0; i < NSECTORS; i++) {
       mRec->RegisterGPUProcessor(&processors()->tpcClusterer[i], GetRecoStepsGPU() & RecoStep::TPCClusterFinding);
+#ifdef GPUCA_HAS_ONNX
+      mRec->RegisterGPUProcessor(&processors()->tpcNNClusterer[i], GetRecoStepsGPU() & RecoStep::TPCClusterFinding);
+#endif
     }
   }
   if (GetRecoSteps() & RecoStep::Refit) {
@@ -149,6 +152,9 @@ void GPUChainTracking::RegisterGPUProcessors()
   if (GetRecoStepsGPU() & RecoStep::TPCClusterFinding) {
     for (uint32_t i = 0; i < NSECTORS; i++) {
       mRec->RegisterGPUDeviceProcessor(&processorsShadow()->tpcClusterer[i], &processors()->tpcClusterer[i]);
+#ifdef GPUCA_HAS_ONNX
+      mRec->RegisterGPUDeviceProcessor(&processorsShadow()->tpcNNClusterer[i], &processors()->tpcNNClusterer[i]);
+#endif
     }
   }
   if (GetRecoStepsGPU() & RecoStep::Refit) {
 
@@ -40,8 +40,8 @@
 #endif
 
 #ifdef GPUCA_HAS_ONNX
-#include "GPUTPCNNClusterizer.h"
-#include "GPUTPCNNClusterizerInternals.h"
+#include "GPUTPCNNClusterizerKernels.h"
+#include "GPUTPCNNClusterizerHost.h"
 #endif
 
 using namespace o2::gpu;
@@ -858,7 +858,9 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
       mRec->runParallelOuterLoop(doGPU, maxLane, [&](uint32_t lane) {
         uint32_t iSector = iSectorBase + lane;
         GPUTPCClusterFinder& clusterer = processors()->tpcClusterer[iSector];
+        GPUTPCNNClusterizer& clustererNN = processors()->tpcNNClusterer[iSector];
         GPUTPCClusterFinder& clustererShadow = doGPU ? processorsShadow()->tpcClusterer[iSector] : clusterer;
+
         if (doGPU) {
           SynchronizeStream(lane);
         }
@@ -878,62 +880,68 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
 
         if (GetProcessingSettings().nn.applyNNclusterizer) {
 #ifdef GPUCA_HAS_ONNX
-          // Settings for the clusterizer
-          GPUSettingsProcessingNNclusterizer nn_settings = GetProcessingSettings().nn;
-          clusterer.nnClusterizerUseCfRegression = nn_settings.nnClusterizerUseCfRegression;
-          clusterer.nnClusterizerSizeInputRow = nn_settings.nnClusterizerSizeInputRow;
-          clusterer.nnClusterizerSizeInputPad = nn_settings.nnClusterizerSizeInputPad;
-          clusterer.nnClusterizerSizeInputTime = nn_settings.nnClusterizerSizeInputTime;
-          clusterer.nnClusterizerAddIndexData = nn_settings.nnClusterizerAddIndexData;
-          clusterer.nnClusterizerElementSize = ((2 * clusterer.nnClusterizerSizeInputRow + 1) * (2 * clusterer.nnClusterizerSizeInputPad + 1) * (2 * clusterer.nnClusterizerSizeInputTime + 1)) + (clusterer.nnClusterizerAddIndexData ? 3 : 0);
-          clusterer.nnClusterizerBatchedMode = nn_settings.nnClusterizerBatchedMode;
-          clusterer.nnClusterizerBoundaryFillValue = nn_settings.nnClusterizerBoundaryFillValue;
+
+          // Setting some initial sizes, important for memory allocation
+          const GPUSettingsProcessingNNclusterizer& nn_settings = GetProcessingSettings().nn;
+          clustererNN.nnClusterizerUseCfRegression = nn_settings.nnClusterizerUseCfRegression;
+          clustererNN.nnClusterizerSizeInputRow = nn_settings.nnClusterizerSizeInputRow;
+          clustererNN.nnClusterizerSizeInputPad = nn_settings.nnClusterizerSizeInputPad;
+          clustererNN.nnClusterizerSizeInputTime = nn_settings.nnClusterizerSizeInputTime;
+          clustererNN.nnClusterizerAddIndexData = nn_settings.nnClusterizerAddIndexData;
+          clustererNN.nnClusterizerElementSize = ((2 * nn_settings.nnClusterizerSizeInputRow + 1) * (2 * nn_settings.nnClusterizerSizeInputPad + 1) * (2 * nn_settings.nnClusterizerSizeInputTime + 1)) + (nn_settings.nnClusterizerAddIndexData ? 3 : 0);
+          clustererNN.nnClusterizerBatchedMode = nn_settings.nnClusterizerBatchedMode;
+          clustererNN.nnClusterizerBoundaryFillValue = nn_settings.nnClusterizerBoundaryFillValue;
           if (nn_settings.nnClusterizerVerbosity < 0) {
-            clusterer.nnClusterizerVerbosity = nn_settings.nnInferenceVerbosity;
+            clustererNN.nnClusterizerVerbosity = nn_settings.nnInferenceVerbosity;
           } else {
-            clusterer.nnClusterizerVerbosity = nn_settings.nnClusterizerVerbosity;
+            clustererNN.nnClusterizerVerbosity = nn_settings.nnClusterizerVerbosity;
           }
 
           // Settings for the NN evaluation
-          clusterer.nnClassThreshold = nn_settings.nnClassThreshold;
-          clusterer.nnSigmoidTrafoClassThreshold = nn_settings.nnSigmoidTrafoClassThreshold;
+          clustererNN.nnClassThreshold = nn_settings.nnClassThreshold;
+          clustererNN.nnSigmoidTrafoClassThreshold = nn_settings.nnSigmoidTrafoClassThreshold;
 
-          GPUTPCNNClusterizerInternals nnApplication(GetProcessingSettings(), clusterer);
+          GPUTPCNNClusterizerHost nnApplication(nn_settings, clustererNN);
 
-          if (clusterer.nnClusterizerUseCfRegression || (int)(nn_settings.nnClusterizerApplyCfDeconvolution)) {
+          if(fragment.index == 0){
+            AllocateRegisteredMemory(clustererNN.mMemoryId);
+          }
+
+          if (clustererNN.nnClusterizerUseCfRegression || (int)(nn_settings.nnClusterizerApplyCfDeconvolution)) {
             runKernel<GPUTPCCFDeconvolution>({GetGrid(clusterer.mPmemory->counters.nPositions, lane), {iSector}});
             DoDebugAndDump(RecoStep::TPCClusterFinding, 262144 << 4, clusterer, &GPUTPCClusterFinder::DumpChargeMap, *mDebugFile, "Split Charges");
           }
 
-          if (clusterer.nnSigmoidTrafoClassThreshold) {
+          if (clustererNN.nnSigmoidTrafoClassThreshold) {
             // Inverse sigmoid transformation
-            clusterer.nnClassThreshold = (float)std::log(clusterer.nnClassThreshold / (1.f - clusterer.nnClassThreshold));
+            clustererNN.nnClassThreshold = (float)std::log(clustererNN.nnClassThreshold / (1.f - clustererNN.nnClassThreshold));
           }
 
           float time_clusterizer = 0, time_fill = 0;
           int evalDtype = nn_settings.nnInferenceDtype.find("32") != std::string::npos;
 
-          for (int batch = 0; batch < std::ceil((float)clusterer.mPmemory->counters.nClusters / clusterer.nnClusterizerBatchedMode); batch++) {
-            uint batchStart = batch * clusterer.nnClusterizerBatchedMode;
-            uint iSize = CAMath::Min((uint)clusterer.nnClusterizerBatchedMode, (uint)(clusterer.mPmemory->counters.nClusters - batchStart));
+          for (int batch = 0; batch < std::ceil((float)clusterer.mPmemory->counters.nClusters / clustererNN.nnClusterizerBatchedMode); batch++) {
+            uint batchStart = batch * clustererNN.nnClusterizerBatchedMode;
+            size_t iSize = CAMath::Min((uint)clustererNN.nnClusterizerBatchedMode, (uint)(clusterer.mPmemory->counters.nClusters - batchStart));
 
             auto start0 = std::chrono::high_resolution_clock::now();
-            runKernel<GPUTPCNNClusterizer, GPUTPCNNClusterizer::fillInputNN>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, evalDtype, 0, batchStart); // Filling the data
+            runKernel<GPUTPCNNClusterizerKernels, GPUTPCNNClusterizerKernels::fillInputNN>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, iSector, evalDtype, 0, batchStart); // Filling the data
+
             auto stop0 = std::chrono::high_resolution_clock::now();
             auto start1 = std::chrono::high_resolution_clock::now();
-            nnApplication.inferenceNetworkClass(clusterer, evalDtype, batchStart);
+            nnApplication.inferenceNetworkClass(clustererNN, iSize, evalDtype, batchStart);
             if (nnApplication.model_class.getNumOutputNodes()[0][1] == 1) {
-              runKernel<GPUTPCNNClusterizer, GPUTPCNNClusterizer::determineClass1Labels>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, evalDtype, 0, batchStart); // Assigning class labels
+              runKernel<GPUTPCNNClusterizerKernels, GPUTPCNNClusterizerKernels::determineClass1Labels>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, iSector, evalDtype, 0, batchStart); // Assigning class labels
             } else {
-              runKernel<GPUTPCNNClusterizer, GPUTPCNNClusterizer::determineClass2Labels>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, evalDtype, 0, batchStart); // Assigning class labels
+              runKernel<GPUTPCNNClusterizerKernels, GPUTPCNNClusterizerKernels::determineClass2Labels>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, iSector, evalDtype, 0, batchStart); // Assigning class labels
             }
 
-            if (!clusterer.nnClusterizerUseCfRegression) {
-              nnApplication.inferenceNetworkReg1(clusterer, evalDtype, batchStart);
-              runKernel<GPUTPCNNClusterizer, GPUTPCNNClusterizer::publishClass1Regression>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, evalDtype, 0, batchStart); // Running the NN for regression class 1
+            if (!clustererNN.nnClusterizerUseCfRegression) {
+              nnApplication.inferenceNetworkReg1(clustererNN, iSize, evalDtype, batchStart);
+              runKernel<GPUTPCNNClusterizerKernels, GPUTPCNNClusterizerKernels::publishClass1Regression>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, iSector, evalDtype, 0, batchStart); // Running the NN for regression class 1
               if (nnApplication.model_class.getNumOutputNodes()[0][1] > 1 && nnApplication.reg_model_paths.size() > 1) {
-                nnApplication.inferenceNetworkReg2(clusterer, evalDtype, batchStart);
-                runKernel<GPUTPCNNClusterizer, GPUTPCNNClusterizer::publishClass2Regression>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, evalDtype, 0, batchStart); // Running the NN for regression class 2
+                nnApplication.inferenceNetworkReg2(clustererNN, iSize, evalDtype, batchStart);
+                runKernel<GPUTPCNNClusterizerKernels, GPUTPCNNClusterizerKernels::publishClass2Regression>({GetGrid(iSize, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, iSector, evalDtype, 0, batchStart); // Running the NN for regression class 2
               }
             }
             auto stop1 = std::chrono::high_resolution_clock::now();
@@ -943,13 +951,13 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
           }
 
           auto start1 = std::chrono::high_resolution_clock::now();
-          if (clusterer.nnClusterizerUseCfRegression) {
-            runKernel<GPUTPCNNClusterizer, GPUTPCNNClusterizer::runCfClusterizer>({GetGrid(clusterer.mPmemory->counters.nClusters, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, evalDtype, 0, 0); // Running the CF regression kernel - no batching needed: batchStart = 0
+          if (clustererNN.nnClusterizerUseCfRegression) {
+            runKernel<GPUTPCNNClusterizerKernels, GPUTPCNNClusterizerKernels::runCfClusterizer>({GetGrid(clusterer.mPmemory->counters.nClusters, lane, GPUReconstruction::krnlDeviceType::CPU), {iSector}}, iSector, evalDtype, 0, 0); // Running the CF regression kernel - no batching needed: batchStart = 0
           }
           auto stop1 = std::chrono::high_resolution_clock::now();
           time_clusterizer += std::chrono::duration_cast<std::chrono::nanoseconds>(stop1 - start1).count() / 1e9;
 
-          if (clusterer.nnClusterizerVerbosity < 3) {
+          if (clustererNN.nnClusterizerVerbosity < 3) {
             LOG(info) << "[NN CF] Apply NN (fragment " << fragment.index << ", lane: " << lane << ", slice: " << iSector << "): filling data " << time_fill << "s ; clusterizer: " << time_clusterizer << "s ; " << clusterer.mPmemory->counters.nClusters << " clusters --> " << clusterer.mPmemory->counters.nClusters / (time_fill + time_clusterizer) << " clusters/s";
           }
 #else
 
@@ -51,8 +51,6 @@ struct ChargePos;
 
 class GPUTPCGeometry;
 
-class GPUTPCNNClusterizerInternals;
-
 class GPUTPCClusterFinder : public GPUProcessor
 {
  public:
@@ -144,40 +142,6 @@ class GPUTPCClusterFinder : public GPUProcessor
   int16_t mZSOffsetId = -1;
   int16_t mOutputId = -1;
 
-  // Neural network clusterization
-
-  int nnClusterizerSizeInputRow = 3;
-  int nnClusterizerSizeInputPad = 3;
-  int nnClusterizerSizeInputTime = 3;
-  int nnClusterizerElementSize = -1;
-  bool nnClusterizerAddIndexData = true;
-  float nnClassThreshold = 0.16;
-  bool nnSigmoidTrafoClassThreshold = 1;
-  int nnClusterizerUseCfRegression = 0;
-  int nnClusterizerBatchedMode = 1;
-  int nnClusterizerVerbosity = 0;
-  int nnClusterizerBoundaryFillValue = -1;
-  int nnClusterizerDumpDigits = 0;
-  int nnClusterizerApplyCfDeconvolution = 0;
-  int nnClusterizerModelClassNumOutputNodes = -1;
-  int nnClusterizerModelReg1NumOutputNodes = -1;
-  int nnClusterizerModelReg2NumOutputNodes = -1;
-  uint nnClusterizerCurrentSize = -1; // This variable determines the size of the memory pointers. It will be set at runtime.
-  int nnClusterizerDtype = 0; // 0: float16, 1: float32
-
-  // Memory allocation for neural network
-  uint class2_elements = 0;
-  float* inputData32=nullptr;
-  OrtDataType::Float16_t* inputData16=nullptr;
-  float* outputDataClass=nullptr;
-  float* modelProbabilities=nullptr;
-  float* outputDataReg1=nullptr;
-  float* outputDataReg2=nullptr;
-
-  ChargePos* peakPositions=nullptr;
-  bool* clusterFlags=nullptr; // mSplitInTime, mSplitInPad. Techincally both flags are set in the same way -> ClusterAccumulator.cx=nullptrx
-  float* centralCharges=nullptr;
-
 #ifndef GPUCA_GPUCODE
   void DumpDigits(std::ostream& out);
   void DumpChargeMap(std::ostream& out, std::string_view);
Original file line number	Diff line number	Diff line change
`@@ -104,6 +104,9 @@ void GPUChainTracking::RegisterPermanentMemoryAndProcessors()`
`104`	`104`	`if (GetRecoSteps() & RecoStep::TPCClusterFinding) {`
`105`	`105`	`for (uint32_t i = 0; i < NSECTORS; i++) {`
`106`	`106`	`mRec->RegisterGPUProcessor(&processors()->tpcClusterer[i], GetRecoStepsGPU() & RecoStep::TPCClusterFinding);`
	`107`	`+#ifdef GPUCA_HAS_ONNX`
	`108`	`+ mRec->RegisterGPUProcessor(&processors()->tpcNNClusterer[i], GetRecoStepsGPU() & RecoStep::TPCClusterFinding);`
	`109`	`+#endif`
`107`	`110`	`}`
`108`	`111`	`}`
`109`	`112`	`if (GetRecoSteps() & RecoStep::Refit) {`
`@@ -149,6 +152,9 @@ void GPUChainTracking::RegisterGPUProcessors()`
`149`	`152`	`if (GetRecoStepsGPU() & RecoStep::TPCClusterFinding) {`
`150`	`153`	`for (uint32_t i = 0; i < NSECTORS; i++) {`
`151`	`154`	`mRec->RegisterGPUDeviceProcessor(&processorsShadow()->tpcClusterer[i], &processors()->tpcClusterer[i]);`
	`155`	`+#ifdef GPUCA_HAS_ONNX`
	`156`	`+ mRec->RegisterGPUDeviceProcessor(&processorsShadow()->tpcNNClusterer[i], &processors()->tpcNNClusterer[i]);`
	`157`	`+#endif`
`152`	`158`	`}`
`153`	`159`	`}`
`154`	`160`	`if (GetRecoStepsGPU() & RecoStep::Refit) {`