Changes for synchronization and consistency. No performance loss.

ChSonnabend · ChSonnabend · commit b1c88f09a758 · 2025-04-11T14:08:13.000+02:00
diff --git a/Common/ML/src/OrtInterface.cxx b/Common/ML/src/OrtInterface.cxx
@@ -271,18 +271,18 @@ void OrtModel::inference(I* input, size_t input_size, O* output)
   std::vector<int64_t> inputShape{input_size, (int64_t)mInputShapes[0][1]};
   Ort::Value inputTensor = Ort::Value(nullptr);
   if constexpr (std::is_same_v<I, OrtDataType::Float16_t>) {
-    inputTensor = Ort::Value::CreateTensor<Ort::Float16_t>(pImplOrt->memoryInfo, reinterpret_cast<Ort::Float16_t*>(input), input_size * mInputShapes[0][1] * sizeof(Ort::Float16_t), inputShape.data(), inputShape.size());
+    inputTensor = Ort::Value::CreateTensor<Ort::Float16_t>(pImplOrt->memoryInfo, reinterpret_cast<Ort::Float16_t*>(input), input_size * mInputShapes[0][1], inputShape.data(), inputShape.size());
   } else {
-    inputTensor = Ort::Value::CreateTensor<I>(pImplOrt->memoryInfo, input, input_size * mInputShapes[0][1] * sizeof(float), inputShape.data(), inputShape.size());
+    inputTensor = Ort::Value::CreateTensor<I>(pImplOrt->memoryInfo, input, input_size * mInputShapes[0][1], inputShape.data(), inputShape.size());
   }
   (pImplOrt->ioBinding)->BindInput(mInputNames[0].c_str(), inputTensor);
 
   std::vector<int64_t> outputShape{input_size, mOutputShapes[0][1]};
   Ort::Value outputTensor = Ort::Value(nullptr);
   if constexpr (std::is_same_v<O, OrtDataType::Float16_t>) {
-    outputTensor = Ort::Value::CreateTensor<Ort::Float16_t>(pImplOrt->memoryInfo, reinterpret_cast<Ort::Float16_t*>(output), input_size * mOutputShapes[0][1] * sizeof(Ort::Float16_t), outputShape.data(), outputShape.size());
+    outputTensor = Ort::Value::CreateTensor<Ort::Float16_t>(pImplOrt->memoryInfo, reinterpret_cast<Ort::Float16_t*>(output), input_size * mOutputShapes[0][1], outputShape.data(), outputShape.size());
   } else {
-    outputTensor = Ort::Value::CreateTensor<O>(pImplOrt->memoryInfo, output, input_size * mOutputShapes[0][1] * sizeof(float), outputShape.data(), outputShape.size());
+    outputTensor = Ort::Value::CreateTensor<O>(pImplOrt->memoryInfo, output, input_size * mOutputShapes[0][1], outputShape.data(), outputShape.size());
   }
   (pImplOrt->ioBinding)->BindOutput(mOutputNames[0].c_str(), outputTensor);
 
diff --git a/GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx b/GPU/GPUTracking/Global/GPUChainTrackingClusterizer.cxx
@@ -630,23 +630,23 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
     mRec->runParallelOuterLoop(doGPU, numLanes, [&](uint32_t lane) {
       nnApplications[lane].init(nn_settings);
       if (nnApplications[lane].modelsUsed[0]) {
-        SetONNXGPUStream((nnApplications[lane].model_class).getSessionOptions(), lane + numLanes, &deviceId);
+        SetONNXGPUStream((nnApplications[lane].model_class).getSessionOptions(), lane, &deviceId);
         (nnApplications[lane].model_class).setDeviceId(deviceId);
         if (nnApplications[lane].model_class.getIntraOpNumThreads() > maxThreads) {
           nnApplications[lane].model_class.setIntraOpNumThreads(maxThreads);
         }
         (nnApplications[lane].model_class).initEnvironment();
       }
       if (nnApplications[lane].modelsUsed[1]) {
-        SetONNXGPUStream((nnApplications[lane].model_reg_1).getSessionOptions(), lane + 2*numLanes, &deviceId);
+        SetONNXGPUStream((nnApplications[lane].model_reg_1).getSessionOptions(), lane, &deviceId);
         (nnApplications[lane].model_reg_1).setDeviceId(deviceId);
         if (nnApplications[lane].model_reg_1.getIntraOpNumThreads() > maxThreads) {
           nnApplications[lane].model_reg_1.setIntraOpNumThreads(maxThreads);
         }
         (nnApplications[lane].model_reg_1).initEnvironment();
       }
       if (nnApplications[lane].modelsUsed[2]) {
-        SetONNXGPUStream((nnApplications[lane].model_reg_2).getSessionOptions(), lane + 3*numLanes, &deviceId);
+        SetONNXGPUStream((nnApplications[lane].model_reg_2).getSessionOptions(), lane, &deviceId);
         (nnApplications[lane].model_reg_2).setDeviceId(deviceId);
         if (nnApplications[lane].model_reg_2.getIntraOpNumThreads() > maxThreads) {
           nnApplications[lane].model_reg_2.setIntraOpNumThreads(maxThreads);
@@ -1039,7 +1039,6 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)
             }
             LOG(info) << "[NN CF] Apply NN (fragment " << fragment.index << ", lane: " << lane << ", sector: " << iSector << "): filling data " << time_fill << "s ; networks: " << time_networks << "s ; clusterizer: " << time_clusterizer << "s ; " << clusterer.mPmemory->counters.nClusters << " clusters, " << acceptedClusters << " accepted. --> " << (int32_t)clusterer.mPmemory->counters.nClusters / (time_fill + time_clusterizer) << " clusters/s";
           }
-          TransferMemoryResourcesToHost(RecoStep::TPCClusterFinding, &clustererNN, lane);
 #else
           GPUFatal("Project not compiled with neural network clusterization. Aborting.");
 #endif

Original file line number	Diff line number	Diff line change
`@@ -630,23 +630,23 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)`
`630`	`630`	`mRec->runParallelOuterLoop(doGPU, numLanes, [&](uint32_t lane) {`
`631`	`631`	`nnApplications[lane].init(nn_settings);`
`632`	`632`	`if (nnApplications[lane].modelsUsed[0]) {`
`633`		`- SetONNXGPUStream((nnApplications[lane].model_class).getSessionOptions(), lane + numLanes, &deviceId);`
	`633`	`+ SetONNXGPUStream((nnApplications[lane].model_class).getSessionOptions(), lane, &deviceId);`
`634`	`634`	`(nnApplications[lane].model_class).setDeviceId(deviceId);`
`635`	`635`	`if (nnApplications[lane].model_class.getIntraOpNumThreads() > maxThreads) {`
`636`	`636`	`nnApplications[lane].model_class.setIntraOpNumThreads(maxThreads);`
`637`	`637`	`}`
`638`	`638`	`(nnApplications[lane].model_class).initEnvironment();`
`639`	`639`	`}`
`640`	`640`	`if (nnApplications[lane].modelsUsed[1]) {`
`641`		`- SetONNXGPUStream((nnApplications[lane].model_reg_1).getSessionOptions(), lane + 2*numLanes, &deviceId);`
	`641`	`+ SetONNXGPUStream((nnApplications[lane].model_reg_1).getSessionOptions(), lane, &deviceId);`
`642`	`642`	`(nnApplications[lane].model_reg_1).setDeviceId(deviceId);`
`643`	`643`	`if (nnApplications[lane].model_reg_1.getIntraOpNumThreads() > maxThreads) {`
`644`	`644`	`nnApplications[lane].model_reg_1.setIntraOpNumThreads(maxThreads);`
`645`	`645`	`}`
`646`	`646`	`(nnApplications[lane].model_reg_1).initEnvironment();`
`647`	`647`	`}`
`648`	`648`	`if (nnApplications[lane].modelsUsed[2]) {`
`649`		`- SetONNXGPUStream((nnApplications[lane].model_reg_2).getSessionOptions(), lane + 3*numLanes, &deviceId);`
	`649`	`+ SetONNXGPUStream((nnApplications[lane].model_reg_2).getSessionOptions(), lane, &deviceId);`
`650`	`650`	`(nnApplications[lane].model_reg_2).setDeviceId(deviceId);`
`651`	`651`	`if (nnApplications[lane].model_reg_2.getIntraOpNumThreads() > maxThreads) {`
`652`	`652`	`nnApplications[lane].model_reg_2.setIntraOpNumThreads(maxThreads);`
`@@ -1039,7 +1039,6 @@ int32_t GPUChainTracking::RunTPCClusterizer(bool synchronizeOutput)`
`1039`	`1039`	`}`
`1040`	`1040`	`LOG(info) << "[NN CF] Apply NN (fragment " << fragment.index << ", lane: " << lane << ", sector: " << iSector << "): filling data " << time_fill << "s ; networks: " << time_networks << "s ; clusterizer: " << time_clusterizer << "s ; " << clusterer.mPmemory->counters.nClusters << " clusters, " << acceptedClusters << " accepted. --> " << (int32_t)clusterer.mPmemory->counters.nClusters / (time_fill + time_clusterizer) << " clusters/s";`
`1041`	`1041`	`}`
`1042`		`- TransferMemoryResourcesToHost(RecoStep::TPCClusterFinding, &clustererNN, lane);`
`1043`	`1042`	`#else`
`1044`	`1043`	`GPUFatal("Project not compiled with neural network clusterization. Aborting.");`
`1045`	`1044`	`#endif`