Fix access in tracklet finding

mconcas · mconcas · commit 33f3b8ac0f10 · 2024-11-26T15:40:52.000+01:00
diff --git a/Detectors/ITSMFT/ITS/tracking/GPU/ITStrackingGPU/TimeFrameGPU.h b/Detectors/ITSMFT/ITS/tracking/GPU/ITStrackingGPU/TimeFrameGPU.h
@@ -63,6 +63,7 @@ class TimeFrameGPU : public TimeFrame
   void loadVertices(const int);
 
   ///
+  void createTrackletsLUTDevice();
   void loadTrackletsDevice();
   void loadTrackletsLUTDevice();
   void loadCellsDevice();
@@ -120,7 +121,7 @@ class TimeFrameGPU : public TimeFrame
   const unsigned char** getDeviceArrayUsedClusters() const { return mUsedClustersDeviceArray; }
   const int** getDeviceROframeClusters() const { return mROFrameClustersDeviceArray; }
   const Tracklet** getDeviceArrayTracklets() const { return mTrackletsDeviceArray; }
-  const int** getDeviceArrayTrackletsLUT() const { return mTrackletsLUTDeviceArray; }
+  int** getDeviceArrayTrackletsLUT() const { return mTrackletsLUTDeviceArray; }
   int** getDeviceArrayCellsLUT() const { return mCellsLUTDeviceArray; }
   int** getDeviceArrayNeighboursCellLUT() const { return mNeighboursCellLUTDeviceArray; }
   CellSeed** getDeviceArrayCells() const { return mCellsDeviceArray; }
@@ -171,14 +172,14 @@ class TimeFrameGPU : public TimeFrame
   const int** mROFrameClustersDeviceArray;
   std::array<Tracklet*, nLayers - 1> mTrackletsDevice;
   const Tracklet** mTrackletsDeviceArray;
-  const int** mTrackletsLUTDeviceArray;
-  std::array<int*, nLayers - 2> mTrackletsLUTDevice;
+  std::array<int*, nLayers - 1> mTrackletsLUTDevice;
   std::array<int*, nLayers - 2> mCellsLUTDevice;
   std::array<int*, nLayers - 3> mNeighboursLUTDevice;
 
   int** mCellsLUTDeviceArray;
   int** mNeighboursCellDeviceArray;
   int** mNeighboursCellLUTDeviceArray;
+  int** mTrackletsLUTDeviceArray;
   std::array<CellSeed*, nLayers - 2> mCellsDevice;
   std::array<int*, nLayers - 2> mNeighboursIndexTablesDevice;
   CellSeed* mTrackSeedsDevice;
diff --git a/Detectors/ITSMFT/ITS/tracking/GPU/ITStrackingGPU/TrackingKernels.h b/Detectors/ITSMFT/ITS/tracking/GPU/ITStrackingGPU/TrackingKernels.h
@@ -65,6 +65,7 @@ void computeTrackletsInROFsHandler(const IndexTableUtils* utils,
                                    const int** ROFClusters,
                                    const unsigned char** usedClusters,
                                    const int** clustersIndexTables,
+                                   int** trackletsLUTs,
                                    const int iteration,
                                    const float NSigmaCut,
                                    std::vector<float>& phiCuts,
@@ -81,7 +82,7 @@ void countCellsHandler(const Cluster** sortedClusters,
                        const Cluster** unsortedClusters,
                        const TrackingFrameInfo** tfInfo,
                        const Tracklet** tracklets,
-                       const int** trackletsLUT,
+                       int** trackletsLUT,
                        const int nTracklets,
                        const int layer,
                        CellSeed* cells,
@@ -98,7 +99,7 @@ void computeCellsHandler(const Cluster** sortedClusters,
                          const Cluster** unsortedClusters,
                          const TrackingFrameInfo** tfInfo,
                          const Tracklet** tracklets,
-                         const int** trackletsLUT,
+                         int** trackletsLUT,
                          const int nTracklets,
                          const int layer,
                          CellSeed* cells,
diff --git a/Detectors/ITSMFT/ITS/tracking/GPU/cuda/CMakeLists.txt b/Detectors/ITSMFT/ITS/tracking/GPU/cuda/CMakeLists.txt
@@ -13,7 +13,7 @@
 if(CUDA_ENABLED)
 find_package(CUDAToolkit)
 message(STATUS "Building ITS CUDA tracker")
-# add_compile_options(-O0 -g -lineinfo -fPIC)
+add_compile_options(-O0 -g -lineinfo -fPIC)
 # add_compile_definitions(ITS_MEASURE_GPU_TIME)
 o2_add_library(ITStrackingCUDA
                SOURCES ClusterLinesGPU.cu
diff --git a/Detectors/ITSMFT/ITS/tracking/GPU/cuda/TimeFrameGPU.cu b/Detectors/ITSMFT/ITS/tracking/GPU/cuda/TimeFrameGPU.cu
@@ -147,12 +147,12 @@ void TimeFrameGPU<nLayers>::loadClustersIndexTables(const int iteration)
   if (!iteration) {
     START_GPU_STREAM_TIMER(mGpuStreams[0].get(), "loading sorted clusters");
     for (auto iLayer{0}; iLayer < nLayers; ++iLayer) {
-      LOGP(info, "gpu-transfer: loading clusters indextable for layer {} with {} elements, for {} MB.", iLayer, mIndexTables[iLayer].size(), mIndexTables[iLayer].size() * sizeof(int) / MB);
+      LOGP(debug, "gpu-transfer: loading clusters indextable for layer {} with {} elements, for {} MB.", iLayer, mIndexTables[iLayer].size(), mIndexTables[iLayer].size() * sizeof(int) / MB);
       allocMemAsync(reinterpret_cast<void**>(&mClustersIndexTablesDevice[iLayer]), mIndexTables[iLayer].size() * sizeof(int), nullptr, getExtAllocator());
       checkGPUError(cudaMemcpyAsync(mClustersIndexTablesDevice[iLayer], mIndexTables[iLayer].data(), mIndexTables[iLayer].size() * sizeof(int), cudaMemcpyHostToDevice, mGpuStreams[0].get()));
     }
     allocMemAsync(reinterpret_cast<void**>(&mClustersIndexTablesDeviceArray), nLayers * sizeof(int), nullptr, getExtAllocator());
-    checkGPUError(cudaMemcpyAsync(mClustersIndexTablesDeviceArray, mClustersIndexTablesDevice.data(), nLayers * sizeof(int), cudaMemcpyHostToDevice, mGpuStreams[0].get()));
+    checkGPUError(cudaMemcpyAsync(mClustersIndexTablesDeviceArray, mClustersIndexTablesDevice.data(), nLayers * sizeof(int*), cudaMemcpyHostToDevice, mGpuStreams[0].get()));
     STOP_GPU_STREAM_TIMER(mGpuStreams[0].get());
   }
 }
@@ -245,6 +245,32 @@ void TimeFrameGPU<nLayers>::loadVertices(const int iteration)
   }
 }
 
+template <int nLayers>
+void TimeFrameGPU<nLayers>::createTrackletsLUTDevice()
+{
+  START_GPU_STREAM_TIMER(mGpuStreams[0].get(), "creating cells LUTs");
+  for (auto iLayer{0}; iLayer < nLayers - 1; ++iLayer) {
+    LOGP(debug, "gpu-transfer: creating tracklets LUT for {} elements on layer {}, for {} MB.", mClusters[iLayer].size() + 1, iLayer, (mClusters[iLayer].size() + 1) * sizeof(int) / MB);
+    allocMemAsync(reinterpret_cast<void**>(&mTrackletsLUTDevice[iLayer]), (mClusters[iLayer].size() + 1) * sizeof(int), nullptr, getExtAllocator());
+    checkGPUError(cudaMemsetAsync(mTrackletsLUTDevice[iLayer], 0, (mClusters[iLayer].size() + 1) * sizeof(int), mGpuStreams[0].get()));
+  }
+  allocMemAsync(reinterpret_cast<void**>(&mTrackletsLUTDeviceArray), (nLayers - 2) * sizeof(int*), nullptr, getExtAllocator());
+  checkGPUError(cudaMemcpyAsync(mTrackletsLUTDeviceArray, mTrackletsLUTDevice.data(), mTrackletsLUTDevice.size() * sizeof(int*), cudaMemcpyHostToDevice, mGpuStreams[0].get()));
+  STOP_GPU_STREAM_TIMER(mGpuStreams[0].get());
+}
+
+// template<int nLayers> void TimeFrameGPU<nLayers>::createTrackletsBuffers()
+// {
+//   START_GPU_STREAM_TIMER(mGpuStreams[0].get(), "creating cells buffers");
+//   for (auto iLayer{0}; iLayer < nLayers - 1; ++iLayer) {
+//     mNTracklets[iLayer] = 0;
+//     checkGPUError(cudaMemcpyAsync(&mNTracklets[iLayer], mTrackletsLUTDevice[iLayer] + mClusters[iLayer].size(), sizeof(int), cudaMemcpyDeviceToHost));
+//     LOGP(debug, "gpu-transfer: creating tracklets buffer for {} elements on layer {}, for {} MB.", mNTracklets[layer], iLayer, mNTracklets[iLayer] * sizeof(CellSeed) / MB);
+//     allocMemAsync(reinterpret_cast<void**>(&mTrackletsDevice[iLayer]), mNTracklets[iLayer] * sizeof(Tracklet), nullptr, getExtAllocator());
+//   }
+//   STOP_GPU_STREAM_TIMER(mGpuStreams[0].get());
+// }
+
 template <int nLayers>
 void TimeFrameGPU<nLayers>::loadTrackletsDevice()
 {
@@ -267,11 +293,11 @@ void TimeFrameGPU<nLayers>::loadTrackletsLUTDevice()
   START_GPU_STREAM_TIMER(mGpuStreams[0].get(), "loading tracklets");
   for (auto iLayer{0}; iLayer < nLayers - 2; ++iLayer) {
     LOGP(debug, "gpu-transfer: loading tracklets LUT for {} elements on layer {}, for {} MB", mTrackletsLookupTable[iLayer].size(), iLayer, mTrackletsLookupTable[iLayer].size() * sizeof(int) / MB);
-    allocMemAsync(reinterpret_cast<void**>(&mTrackletsLUTDevice[iLayer]), mTrackletsLookupTable[iLayer].size() * sizeof(int), nullptr, getExtAllocator());
+    // allocMemAsync(reinterpret_cast<void**>(&mTrackletsLUTDevice[iLayer]), mTrackletsLookupTable[iLayer].size() * sizeof(int), nullptr, getExtAllocator());
     checkGPUError(cudaHostRegister(mTrackletsLookupTable[iLayer].data(), mTrackletsLookupTable[iLayer].size() * sizeof(int), cudaHostRegisterPortable));
     checkGPUError(cudaMemcpyAsync(mTrackletsLUTDevice[iLayer], mTrackletsLookupTable[iLayer].data(), mTrackletsLookupTable[iLayer].size() * sizeof(int), cudaMemcpyHostToDevice));
   }
-  allocMemAsync(reinterpret_cast<void**>(&mTrackletsLUTDeviceArray), (nLayers - 2) * sizeof(int*), nullptr, getExtAllocator());
+  // allocMemAsync(reinterpret_cast<void**>(&mTrackletsLUTDeviceArray), (nLayers - 2) * sizeof(int*), nullptr, getExtAllocator());
   checkGPUError(cudaHostRegister(mTrackletsLUTDevice.data(), (nLayers - 2) * sizeof(int*), cudaHostRegisterPortable));
   checkGPUError(cudaMemcpyAsync(mTrackletsLUTDeviceArray, mTrackletsLUTDevice.data(), (nLayers - 2) * sizeof(int*), cudaMemcpyHostToDevice));
   STOP_GPU_STREAM_TIMER(mGpuStreams[0].get());
diff --git a/Detectors/ITSMFT/ITS/tracking/GPU/cuda/TrackerTraitsGPU.cxx b/Detectors/ITSMFT/ITS/tracking/GPU/cuda/TrackerTraitsGPU.cxx
@@ -92,6 +92,7 @@ void TrackerTraitsGPU<nLayers>::computeTrackletsHybrid(const int iteration, int
 {
   auto& conf = o2::its::ITSGpuTrackingParamConfig::Instance();
   TrackerTraits::computeLayerTracklets(iteration, iROFslice, iVertex);
+  mTimeFrameGPU->createTrackletsLUTDevice();
 
   const Vertex diamondVert({mTrkParams[iteration].Diamond[0], mTrkParams[iteration].Diamond[1], mTrkParams[iteration].Diamond[2]}, {25.e-6f, 0.f, 0.f, 25.e-6f, 0.f, 36.f}, 1, 1.f);
   gsl::span<const Vertex> diamondSpan(&diamondVert, 1);
@@ -112,6 +113,7 @@ void TrackerTraitsGPU<nLayers>::computeTrackletsHybrid(const int iteration, int
                                          mTimeFrameGPU->getDeviceROframeClusters(),
                                          mTimeFrameGPU->getDeviceArrayUsedClusters(),
                                          mTimeFrameGPU->getDeviceArrayClustersIndexTables(),
+                                         mTimeFrameGPU->getDeviceArrayTrackletsLUT(),
                                          iteration,
                                          mTrkParams[iteration].NSigmaCut,
                                          mTimeFrameGPU->getPhiCuts(),
diff --git a/Detectors/ITSMFT/ITS/tracking/GPU/cuda/TrackingKernels.cu b/Detectors/ITSMFT/ITS/tracking/GPU/cuda/TrackingKernels.cu
@@ -370,7 +370,7 @@ GPUg() void computeLayerCellsKernel(
   const Cluster** unsortedClusters,
   const TrackingFrameInfo** tfInfo,
   const Tracklet** tracklets,
-  const int** trackletsLUT,
+  int** trackletsLUT,
   const int nTrackletsCurrent,
   const int layer,
   CellSeed* cells,
@@ -467,7 +467,7 @@ GPUg() void computeLayerTrackletsMultiROFKernel(
   const unsigned char** usedClusters, // Used clusters
   const int** indexTables,            // input data rof0-delta <rof0< rof0+delta (up to 3 rofs)
   // Tracklet* tracklets,                        // output data
-  // int* trackletsLUT,
+  int** trackletsLUT,
   const int iteration,
   const float NSigmaCut,
   const float phiCut,
@@ -548,7 +548,7 @@ GPUg() void computeLayerTrackletsMultiROFKernel(
               if (deltaZ / sigmaZ < NSigmaCut && (deltaPhi < phiCut || o2::gpu::CAMath::Abs(deltaPhi - constants::math::TwoPi) < phiCut)) {
                 // if (layerIndex > 0) {
                 if constexpr (initRun) {
-                  // trackletsLUT[currentSortedIndex]++; // we need l0 as well for usual exclusive sums.
+                  trackletsLUT[layerIndex][currentSortedIndex]++; // we need l0 as well for usual exclusive sums.
                 } else {
                   // }
                   const float phi{o2::gpu::CAMath::ATan2(currentCluster.yCoordinate - nextCluster.yCoordinate, currentCluster.xCoordinate - nextCluster.xCoordinate)};
@@ -612,7 +612,7 @@ GPUg() void printBufferLayerOnThread(const int layer, const int* v, unsigned int
   }
 }
 
-GPUg() void printMatrixRow(const int row, const int** mat, const unsigned int rowLength, const int len = 150, const unsigned int tId = 0)
+GPUg() void printMatrixRow(const int row, const int** mat, const unsigned int rowLength, const int len = 256 * 128 + 1, const unsigned int tId = 0)
 {
   if (blockIdx.x * blockDim.x + threadIdx.x == tId) {
     for (int i{0}; i < rowLength; ++i) {
@@ -709,6 +709,7 @@ void computeTrackletsInROFsHandler(const IndexTableUtils* utils,
                                    const int** ROFClusters,
                                    const unsigned char** usedClusters,
                                    const int** clustersIndexTables,
+                                   int** trackletsLUTs,
                                    const int iteration,
                                    const float NSigmaCut,
                                    std::vector<float>& phiCuts,
@@ -722,31 +723,34 @@ void computeTrackletsInROFsHandler(const IndexTableUtils* utils,
                                    const int nThreads)
 {
   for (int iLayer = 0; iLayer < nLayers - 1; ++iLayer) {
-    gpu::computeLayerTrackletsMultiROFKernel<<<nBlocks, nThreads>>>(
-      utils,
-      multMask,
-      iLayer,
-      startROF,
-      endROF,
-      maxROF,
-      deltaROF,
-      vertices,
-      rofPV,
-      nVertices,
-      vertexId,
-      clusters,
-      ROFClusters,
-      usedClusters,
-      clustersIndexTables,
-      iteration,
-      NSigmaCut,
-      phiCuts[iLayer],
-      resolutionPV,
-      minRs[iLayer + 1],
-      maxRs[iLayer + 1],
-      resolutions[iLayer],
-      radii[iLayer + 1] - radii[iLayer],
-      mulScatAng[iLayer]);
+    // gpu::computeLayerTrackletsMultiROFKernel<<<1, 1>>>(
+    //   utils,
+    //   multMask,
+    //   iLayer,
+    //   startROF,
+    //   endROF,
+    //   maxROF,
+    //   deltaROF,
+    //   vertices,
+    //   rofPV,
+    //   nVertices,
+    //   vertexId,
+    //   clusters,
+    //   ROFClusters,
+    //   usedClusters,
+    //   clustersIndexTables,
+    //   trackletsLUTs,
+    //   iteration,
+    //   NSigmaCut,
+    //   phiCuts[iLayer],
+    //   resolutionPV,
+    //   minRs[iLayer + 1],
+    //   maxRs[iLayer + 1],
+    //   resolutions[iLayer],
+    //   radii[iLayer + 1] - radii[iLayer],
+    //   mulScatAng[iLayer]);
+    gpuCheckError(cudaPeekAtLastError());
+    gpuCheckError(cudaDeviceSynchronize());
   }
 }
 
@@ -755,7 +759,7 @@ void countCellsHandler(
   const Cluster** unsortedClusters,
   const TrackingFrameInfo** tfInfo,
   const Tracklet** tracklets,
-  const int** trackletsLUT,
+  int** trackletsLUT,
   const int nTracklets,
   const int layer,
   CellSeed* cells,
@@ -806,7 +810,7 @@ void computeCellsHandler(
   const Cluster** unsortedClusters,
   const TrackingFrameInfo** tfInfo,
   const Tracklet** tracklets,
-  const int** trackletsLUT,
+  int** trackletsLUT,
   const int nTracklets,
   const int layer,
   CellSeed* cells,
@@ -994,6 +998,7 @@ template void computeTrackletsInROFsHandler<7>(const IndexTableUtils* utils,
                                                const int** ROFClusters,
                                                const unsigned char** usedClusters,
                                                const int** clustersIndexTables,
+                                               int** trackletsLUTs,
                                                const int iteration,
                                                const float NSigmaCut,
                                                std::vector<float>& phiCuts,