Using char* buffer for model loading

ChSonnabend · ChSonnabend · commit 5284b01db9b4 · 2025-11-23T11:52:54.000+01:00
diff --git a/Common/ML/include/ML/OrtInterface.h b/Common/ML/include/ML/OrtInterface.h
@@ -51,7 +51,7 @@ class OrtModel
   void initOptions(std::unordered_map<std::string, std::string> optionsMap);
   void initEnvironment();
   void initSession();
-  void initSessionFromBuffer(const void* buffer, size_t bufferSize);
+  void initSessionFromBuffer(const char* buffer, size_t bufferSize);
   void memoryOnDevice(int32_t = 0);
   bool isInitialized() { return mInitialized; }
   void resetSession();
diff --git a/Common/ML/src/OrtInterface.cxx b/Common/ML/src/OrtInterface.cxx
@@ -138,10 +138,13 @@ void OrtModel::initEnvironment()
   (mPImplOrt->env)->DisableTelemetryEvents(); // Disable telemetry events
 }
 
-void OrtModel::initSessionFromBuffer(const void* buffer, size_t bufferSize)
+void OrtModel::initSessionFromBuffer(const char* buffer, size_t bufferSize)
 {
+  mPImplOrt->sessionOptions.AddConfigEntry("session.load_model_format", "ONNX");
+  mPImplOrt->sessionOptions.AddConfigEntry("session.use_ort_model_bytes_directly", "1");
+
   mPImplOrt->session = std::make_unique<Ort::Session>(*mPImplOrt->env,
-                                                      static_cast<const uint8_t*>(buffer),
+                                                      buffer,
                                                       bufferSize,
                                                       mPImplOrt->sessionOptions);
   mPImplOrt->ioBinding = std::make_unique<Ort::IoBinding>(*mPImplOrt->session);
diff --git a/GPU/GPUTracking/DataTypes/GPUDataTypes.h b/GPU/GPUTracking/DataTypes/GPUDataTypes.h
@@ -182,6 +182,10 @@ struct GPUCalibObjectsTemplate { // use only pointers on PODs or flat objects he
   typename S<o2::tpc::CalibdEdxContainer>::type* dEdxCalibContainer = nullptr;
   typename S<o2::base::PropagatorImpl<float>>::type* o2Propagator = nullptr;
   typename S<o2::itsmft::TopologyDictionary>::type* itsPatternDict = nullptr;
+
+  // NN clusterizer objects
+  char* nnClusterizerNetworks[3] = {nullptr, nullptr, nullptr}; // [c, r1, r2] networks as char arrays from CCDB
+  uint32_t nnClusterizerNetworkSizes[3] = {0, 0, 0};
 };
 typedef GPUCalibObjectsTemplate<DefaultPtr> GPUCalibObjects; // NOTE: These 2 must have identical layout since they are memcopied
 typedef GPUCalibObjectsTemplate<ConstPtr> GPUCalibObjectsConst;
diff --git a/GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx b/GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx
@@ -639,7 +639,7 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
   // Maximum of 4 lanes supported
   HighResTimer* nnTimers[12];
 
-  if (GetProcessingSettings().nn.applyNNclusterizer) {
+  if (nn_settings.applyNNclusterizer) {
     int32_t deviceId = -1;
     int32_t numLanes = GetProcessingSettings().nTPCClustererLanes;
     int32_t maxThreads = mRec->getNKernelHostThreads(true);
@@ -677,7 +677,11 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
         //   nnApplications[lane].directOrtAllocator((nnApplications[lane].mModelClass).getEnv(), (nnApplications[lane].mModelClass).getMemoryInfo(), mRec, recreateMemoryAllocator);
         // }
         // recreateMemoryAllocator = true;
-        (nnApplications[lane].mModelClass).initSession();
+        if (!nn_settings.nnLoadFromCCDB){
+          (nnApplications[lane].mModelClass).initSession(); // loads from file
+        } else {
+          (nnApplications[lane].mModelClass).initSessionFromBuffer(processors()->calibObjects.nnClusterizerNetworks[0], processors()->calibObjects.nnClusterizerNetworkSizes[0]); // loads from CCDB
+        }
       }
       if (nnApplications[lane].mModelsUsed[1]) {
         SetONNXGPUStream(*(nnApplications[lane].mModelReg1).getSessionOptions(), lane, &deviceId);
@@ -688,7 +692,11 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
         // (nnApplications[lane].mModelReg1).setEnv((nnApplications[lane].mModelClass).getEnv());
         (nnApplications[lane].mModelReg1).initEnvironment();
         // nnApplications[lane].directOrtAllocator((nnApplications[lane].mModelReg1).getEnv(), (nnApplications[lane].mModelReg1).getMemoryInfo(), mRec, recreateMemoryAllocator);
-        (nnApplications[lane].mModelReg1).initSession();
+        if (!nn_settings.nnLoadFromCCDB){
+          (nnApplications[lane].mModelReg1).initSession(); // loads from file
+        } else {
+          (nnApplications[lane].mModelReg1).initSessionFromBuffer(processors()->calibObjects.nnClusterizerNetworks[1], processors()->calibObjects.nnClusterizerNetworkSizes[1]); // loads from CCDB
+        }
       }
       if (nnApplications[lane].mModelsUsed[2]) {
         SetONNXGPUStream(*(nnApplications[lane].mModelReg2).getSessionOptions(), lane, &deviceId);
@@ -699,7 +707,11 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
         // (nnApplications[lane].mModelReg2).setEnv((nnApplications[lane].mModelClass).getEnv());
         (nnApplications[lane].mModelReg2).initEnvironment();
         // nnApplications[lane].directOrtAllocator((nnApplications[lane].mModelClass).getEnv(), (nnApplications[lane].mModelClass).getMemoryInfo(), mRec, recreateMemoryAllocator);
-        (nnApplications[lane].mModelReg2).initSession();
+        if (!nn_settings.nnLoadFromCCDB){
+          (nnApplications[lane].mModelReg2).initSession(); // loads from file
+        } else {
+          (nnApplications[lane].mModelReg2).initSessionFromBuffer(processors()->calibObjects.nnClusterizerNetworks[2], processors()->calibObjects.nnClusterizerNetworkSizes[2]); // loads from CCDB
+        }
       }
       if (nn_settings.nnClusterizerVerbosity > 0) {
         LOG(info) << "(ORT) Allocated ONNX stream for lane " << lane << " and device " << deviceId;
diff --git a/GPU/Workflow/include/GPUWorkflow/GPUWorkflowSpec.h b/GPU/Workflow/include/GPUWorkflow/GPUWorkflowSpec.h
@@ -138,6 +138,8 @@ class GPURecoWorkflowSpec : public o2::framework::Task
 
     // NN clusterizer
     bool nnLoadFromCCDB = false;
+    bool nnDumpToFile = false;
+    std::vector<std::string> nnEvalMode;
   };
 
   GPURecoWorkflowSpec(CompletionPolicyData* policyData, Config const& specconfig, std::vector<int32_t> const& tpcsectors, uint64_t tpcSectorMask, std::shared_ptr<o2::base::GRPGeomRequest>& ggr, std::function<bool(o2::framework::DataProcessingHeader::StartTime)>** gPolicyOrder = nullptr);
diff --git a/GPU/Workflow/src/GPUWorkflowSpec.cxx b/GPU/Workflow/src/GPUWorkflowSpec.cxx
@@ -770,64 +770,6 @@ void GPURecoWorkflowSpec::run(ProcessingContext& pc)
 
   // ------------------------------ Actual processing ------------------------------
 
-  if (mSpecConfig.nnLoadFromCCDB) {
-    LOG(info) << "(NN CLUS) Fetching CCDB calib objects";
-
-    auto dumpOnnxToFile = [](const char* buffer, std::size_t size, const std::string& path) {
-      const char* marker = "Accept-Ranges";
-      const char* pos = std::search(buffer, buffer + size, marker, marker + std::strlen(marker));
-
-      // Compute the actual number of bytes to write
-      std::size_t writeSize = (pos != buffer + size)
-                                ? static_cast<std::size_t>(pos - buffer)
-                                : size;
-
-      std::ofstream out(path, std::ios::binary | std::ios::trunc);
-      if (!out.is_open()) {
-        throw std::runtime_error("Failed to open ONNX output file: " + path);
-      }
-
-      out.write(buffer, static_cast<std::streamsize>(writeSize));
-      if (!out) {
-        throw std::runtime_error("Failed while writing ONNX data to: " + path);
-      }
-    };
-
-    GPUSettingsProcessingNNclusterizer& nnClusterizerSettings = mConfig->configProcessing.nn;
-    std::vector<std::string> evalMode = o2::utils::Str::tokenize(nnClusterizerSettings.nnEvalMode, ':');
-
-    DataRef m;
-    if (evalMode[0] == "c1") {
-      m = pc.inputs().get("nn_classification_c1");
-      const char* buffer = const_cast<char*>(m.payload);
-      size_t size = DataRefUtils::getPayloadSize(m);
-      if (nnClusterizerSettings.nnCCDBDumpToFile == 1) {
-        dumpOnnxToFile(buffer, size, "net_classification_c1.onnx");
-      }
-    } else if (evalMode[0] == "c2") {
-      m = pc.inputs().get("nn_classification_c2");
-      const char* buffer = const_cast<char*>(m.payload);
-      size_t size = DataRefUtils::getPayloadSize(m);
-      if (nnClusterizerSettings.nnCCDBDumpToFile == 1) {
-        dumpOnnxToFile(buffer, size, "net_classification_c2.onnx");
-      }
-    }
-
-    m = pc.inputs().get("nn_regression_c1");
-    const char* buffer = const_cast<char*>(m.payload);
-    size_t size = DataRefUtils::getPayloadSize(m);
-    if (nnClusterizerSettings.nnCCDBDumpToFile == 1) {
-      dumpOnnxToFile(buffer, size, "net_regression_c1.onnx");
-    }
-    if (evalMode[1] == "r2") {
-      m = pc.inputs().get("nn_regression_c2");
-      const char* buffer = const_cast<char*>(m.payload);
-      size_t size = DataRefUtils::getPayloadSize(m);
-      if (nnClusterizerSettings.nnCCDBDumpToFile == 1) {
-        dumpOnnxToFile(buffer, size, "net_regression_c2.onnx");
-      }
-    }
-  }
   if ((int32_t)(ptrs.tpcZS != nullptr) + (int32_t)(ptrs.tpcPackedDigits != nullptr && (ptrs.tpcZS == nullptr || ptrs.tpcPackedDigits->tpcDigitsMC == nullptr)) + (int32_t)(ptrs.clustersNative != nullptr) + (int32_t)(ptrs.tpcCompressedClusters != nullptr) != 1) {
     throw std::runtime_error("Invalid input for gpu tracking");
   }
@@ -1138,6 +1080,12 @@ void GPURecoWorkflowSpec::doCalibUpdates(o2::framework::ProcessingContext& pc, c
     newCalibValues.tpcTimeBinCut = mConfig->configGRP.tpcCutTimeBin = mTPCCutAtTimeBin;
     needCalibUpdate = true;
   }
+  if (mSpecConfig.nnLoadFromCCDB) {
+    for (int i = 0; i < 3; i++) {
+      newCalibObjects.nnClusterizerNetworks[i] = mConfig->configCalib.nnClusterizerNetworks[i];
+      newCalibObjects.nnClusterizerNetworkSizes[i] = mConfig->configCalib.nnClusterizerNetworkSizes[i];
+    }
+  }
   if (needCalibUpdate) {
     LOG(info) << "Updating GPUReconstruction calibration objects";
     mGPUReco->UpdateCalibration(newCalibObjects, newCalibValues);
@@ -1282,6 +1230,7 @@ Inputs GPURecoWorkflowSpec::inputs()
 
     LOG(info) << "(NN CLUS) Enabling fetching of TPC NN clusterizer from CCDB";
     mSpecConfig.nnLoadFromCCDB = true;
+    mSpecConfig.nnDumpToFile = mConfig->configProcessing.nn.nnCCDBDumpToFile;
     GPUSettingsProcessingNNclusterizer& nnClusterizerSettings = mConfig->configProcessing.nn;
 
     std::map<std::string, std::string> metadata;
@@ -1300,7 +1249,7 @@ Inputs GPURecoWorkflowSpec::inputs()
       }
     };
 
-    std::vector<std::string> evalMode = o2::utils::Str::tokenize(nnClusterizerSettings.nnEvalMode, ':');
+    mSpecConfig.nnEvalMode = o2::utils::Str::tokenize(nnClusterizerSettings.nnEvalMode, ':');
     std::vector<o2::framework::CCDBMetadata> ccdb_metadata;
 
     if (mConfParam->printSettings) {
@@ -1313,29 +1262,25 @@ Inputs GPURecoWorkflowSpec::inputs()
       printSettings(metadata);
     }
 
-    if (evalMode[0] == "c1") {
+    if (mSpecConfig.nnEvalMode[0] == "c1") {
       metadata["nnCCDBEvalType"] = "classification_c1";
       convert_map_to_metadata(metadata, ccdb_metadata);
       inputs.emplace_back("nn_classification_c1", "TPC", "NNCLUSTERIZER_C1", 0, Lifetime::Condition, ccdbParamSpec(nnClusterizerSettings.nnCCDBPath, ccdb_metadata, 0));
-      LOG(info) << "(NN CLUS) Loading NN clusterizer classification (c1) from CCDB";
-    } else if (evalMode[0] == "c2") {
+    } else if (mSpecConfig.nnEvalMode[0] == "c2") {
       metadata["nnCCDBEvalType"] = "classification_c2";
       convert_map_to_metadata(metadata, ccdb_metadata);
       inputs.emplace_back("nn_classification_c2", "TPC", "NNCLUSTERIZER_C2", 0, Lifetime::Condition, ccdbParamSpec(nnClusterizerSettings.nnCCDBPath, ccdb_metadata, 0));
-      LOG(info) << "(NN CLUS) Loading NN clusterizer classification (c2) from CCDB";
     }
 
     metadata["nnCCDBEvalType"] = "regression_c1";
     metadata["nnCCDBLayerType"] = nnClusterizerSettings.nnCCDBRegressionLayerType;
     convert_map_to_metadata(metadata, ccdb_metadata);
     inputs.emplace_back("nn_regression_c1", "TPC", "NNCLUSTERIZER_R1", 0, Lifetime::Condition, ccdbParamSpec(nnClusterizerSettings.nnCCDBPath, ccdb_metadata, 0));
-    LOG(info) << "(NN CLUS) Loading NN clusterizer regression (r1) from CCDB";
 
-    if (evalMode[1] == "r2") {
+    if (mSpecConfig.nnEvalMode[1] == "r2") {
       metadata["nnCCDBEvalType"] = "regression_c2";
       convert_map_to_metadata(metadata, ccdb_metadata);
       inputs.emplace_back("nn_regression_c2", "TPC", "NNCLUSTERIZER_R2", 0, Lifetime::Condition, ccdbParamSpec(nnClusterizerSettings.nnCCDBPath, ccdb_metadata, 0));
-      LOG(info) << "(NN CLUS) Loading NN clusterizer regression (r2) from CCDB";
     }
   }
 
diff --git a/GPU/Workflow/src/GPUWorkflowTPC.cxx b/GPU/Workflow/src/GPUWorkflowTPC.cxx
@@ -405,6 +405,76 @@ bool GPURecoWorkflowSpec::fetchCalibsCCDBTPC<GPUCalibObjectsConst>(ProcessingCon
       newCalibObjects.tpcPadGain = mCalibObjects.mTPCPadGainCalib.get();
       mustUpdate = true;
     }
+
+    // NN clusterizer networks
+    if (mSpecConfig.nnLoadFromCCDB) {
+
+      auto findValidObjectEnd = [](const char* buffer, std::size_t size) {
+        const char* marker = "Accept-Ranges";
+        std::size_t markerLen = std::strlen(marker);
+
+        auto rpos = std::search(
+          std::make_reverse_iterator(buffer + size),
+          std::make_reverse_iterator(buffer),
+          std::make_reverse_iterator(marker + markerLen),
+          std::make_reverse_iterator(marker));
+
+        if (rpos == std::make_reverse_iterator(buffer)) {
+          return size; // Marker not found: keep full buffer
+        }
+
+        const char* pos = rpos.base() - markerLen; // Convert reverse iterator back
+        return static_cast<std::size_t>(pos - buffer);
+      };
+
+      auto dumpToFile = [](const char* buffer, std::size_t validSize, const std::string& path) {
+        std::ofstream out(path, std::ios::binary | std::ios::trunc);
+        if (!out.is_open()) {
+          throw std::runtime_error("Failed to open output file: " + path);
+        }
+
+        out.write(buffer, static_cast<std::streamsize>(validSize));
+        if (!out) {
+          throw std::runtime_error("Failed while writing data to: " + path);
+        }
+      };
+
+      DataRef m;
+      if (mSpecConfig.nnEvalMode[0] == "c1") {
+        m = pc.inputs().get("nn_classification_c1");
+        mConfig->configCalib.nnClusterizerNetworks[0] = const_cast<char*>(m.payload);
+        size_t size = DataRefUtils::getPayloadSize(m);
+        mConfig->configCalib.nnClusterizerNetworkSizes[0] = findValidObjectEnd(mConfig->configCalib.nnClusterizerNetworks[0], size);
+        if (mSpecConfig.nnDumpToFile) {
+          dumpToFile(mConfig->configCalib.nnClusterizerNetworks[0], mConfig->configCalib.nnClusterizerNetworkSizes[0], "net_classification_c1.onnx");
+        }
+      } else if (mSpecConfig.nnEvalMode[0] == "c2") {
+        m = pc.inputs().get("nn_classification_c2");
+        mConfig->configCalib.nnClusterizerNetworks[0] = const_cast<char*>(m.payload);
+        size_t size = DataRefUtils::getPayloadSize(m);
+        mConfig->configCalib.nnClusterizerNetworkSizes[0] = findValidObjectEnd(mConfig->configCalib.nnClusterizerNetworks[0], size);
+        if (mSpecConfig.nnDumpToFile) {
+          dumpToFile(mConfig->configCalib.nnClusterizerNetworks[0], mConfig->configCalib.nnClusterizerNetworkSizes[0], "net_classification_c2.onnx");
+        }
+      }
+
+      m = pc.inputs().get("nn_regression_c1");
+      mConfig->configCalib.nnClusterizerNetworks[2] = const_cast<char*>(m.payload);
+      size_t size = DataRefUtils::getPayloadSize(m);
+      mConfig->configCalib.nnClusterizerNetworkSizes[2] = findValidObjectEnd(mConfig->configCalib.nnClusterizerNetworks[2], size);
+      if (mSpecConfig.nnDumpToFile) {
+        dumpToFile(mConfig->configCalib.nnClusterizerNetworks[2], mConfig->configCalib.nnClusterizerNetworkSizes[2], "net_regression_c1.onnx");
+      }
+      if (mSpecConfig.nnEvalMode[1] == "r2") {
+        m = pc.inputs().get("nn_regression_c2");
+        mConfig->configCalib.nnClusterizerNetworks[3] = const_cast<char*>(m.payload);
+        size_t size = DataRefUtils::getPayloadSize(m);
+        mConfig->configCalib.nnClusterizerNetworkSizes[3] = findValidObjectEnd(mConfig->configCalib.nnClusterizerNetworks[3], size);
+        if (mSpecConfig.nnDumpToFile) {
+          dumpToFile(mConfig->configCalib.nnClusterizerNetworks[3], mConfig->configCalib.nnClusterizerNetworkSizes[3], "net_regression_c2.onnx");
+        }
+      }
+    }
   }
   return mustUpdate;
 }