adjusting to new callback signature for 1dmemrefs (#19)

fschlimb · web-flow · commit 50082cea611e · 2023-05-17T20:25:33.000+02:00
* adjusting to new callback signature for 1dmemrefs; fixing gathering 0d array
* fixing handling of temporary base tensors
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -39,6 +39,10 @@ set(CMAKE_C_EXTENSIONS OFF)
 set(CMAKE_CXX_EXTENSIONS OFF)
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 
+# Expected LLVM SHA
+file(STRINGS ${CMAKE_CURRENT_SOURCE_DIR}/imex_version.txt EXPECTED_IMEX_SHA)
+message(STATUS "Expected IMEX sha: \"${EXPECTED_IMEX_SHA}\"")
+
 # Common installation directories
 #include(GNUInstallDirs)
 
diff --git a/imex_version.txt b/imex_version.txt
@@ -1 +1 @@
-94418f99f4b58eb57cc661057956eb36e2fce66b
+524df1c49aed52259f9ef8cea018c123b0bcada3
diff --git a/src/CollComm.cpp b/src/CollComm.cpp
@@ -5,12 +5,16 @@
 void bufferize(DDPTensorImpl::ptr_type a_ptr, void *outPtr) {
   dispatch(a_ptr->dtype(), a_ptr->data(), [&a_ptr, outPtr](auto *ptr) {
     auto buff = static_cast<decltype(ptr)>(outPtr);
-
-    forall(0, ptr, a_ptr->local_shape(), a_ptr->local_strides(), a_ptr->ndims(),
-           [&buff](const auto *in) {
-             *buff = *in;
-             ++buff;
-           });
+    auto shp = a_ptr->local_shape();
+    if (shp) {
+      forall(0, ptr, shp, a_ptr->local_strides(), a_ptr->ndims(),
+             [&buff](const auto *in) {
+               *buff = *in;
+               ++buff;
+             });
+    } else {
+      buff[0] = ptr[0];
+    }
   });
 }
 
@@ -20,7 +24,7 @@ void gather_tensor(DDPTensorImpl::ptr_type a_ptr, rank_type root,
                    void *outPtr) {
   auto trscvr = a_ptr->transceiver();
 
-  if (!trscvr) {
+  if (!trscvr || a_ptr->owner() == REPLICATED) {
     bufferize(a_ptr, outPtr);
     return;
   }
diff --git a/src/ManipOp.cpp b/src/ManipOp.cpp
@@ -44,22 +44,21 @@ struct DeferredReshape : public Deferred {
     auto op =
         builder.create<::imex::ptensor::ReshapeOp>(loc, outTyp, av, shp, copyA);
 
-    auto future_a = Registry::get(_a);
-
     dm.addVal(this->guid(), op,
-              [this, future_a](Transceiver *transceiver, uint64_t rank,
-                               void *allocated, void *aligned, intptr_t offset,
-                               const intptr_t *sizes, const intptr_t *strides,
-                               int64_t *gs_allocated, int64_t *gs_aligned,
-                               uint64_t *lo_allocated, uint64_t *lo_aligned,
-                               uint64_t balanced) {
+              [this](Transceiver *transceiver, uint64_t rank, void *allocated,
+                     void *aligned, intptr_t offset, const intptr_t *sizes,
+                     const intptr_t *strides, int64_t *gs_allocated,
+                     int64_t *gs_aligned, uint64_t *lo_allocated,
+                     uint64_t *lo_aligned, uint64_t balanced) {
                 auto t =
                     mk_tnsr(transceiver, _dtype, rank, allocated, aligned,
                             offset, sizes, strides, gs_allocated, gs_aligned,
                             lo_allocated, lo_aligned, balanced);
                 if (_copy != COPY_ALWAYS) {
                   assert(!"copy-free reshape not supported");
-                  t->set_base(future_a.get());
+                  if (Registry::has(_a)) {
+                    t->set_base(Registry::get(_a).get());
+                  } // else _a is a temporary and was dropped
                 }
                 this->set_value(std::move(t));
               });
diff --git a/src/SetGetItem.cpp b/src/SetGetItem.cpp
@@ -113,9 +113,12 @@ struct DeferredGather
     py::object res;
     if (!sendonly || !trscvr) {
       auto tmp = a_ptr->shape();
-      res = dispatch<mk_array>(a_ptr->dtype(),
-                               std::vector<ssize_t>(tmp, &tmp[a_ptr->ndims()]),
-                               outPtr);
+      std::vector<ssize_t> tmpv(tmp, &tmp[a_ptr->ndims()]);
+      // numpy treats 0d arrays as empty arrays, not as a scalar as we do
+      if (tmpv.empty()) {
+        tmpv.emplace_back(1);
+      }
+      res = dispatch<mk_array>(a_ptr->dtype(), std::move(tmpv), outPtr);
     }
 
     gather_tensor(a_ptr, _root, outPtr);
@@ -293,19 +296,19 @@ struct DeferredGetItem : public Deferred {
     auto res = builder.create<::imex::ptensor::SubviewOp>(
         loc, outTyp, av, offsV, sizesV, stridesV);
 
-    auto future_a = Registry::get(_a);
-
     dm.addVal(
         this->guid(), res,
-        [this, dtype, future_a](
-            Transceiver *transceiver, uint64_t rank, void *allocated,
-            void *aligned, intptr_t offset, const intptr_t *sizes,
-            const intptr_t *strides, int64_t *gs_allocated, int64_t *gs_aligned,
-            uint64_t *lo_allocated, uint64_t *lo_aligned, uint64_t balanced) {
+        [this, dtype](Transceiver *transceiver, uint64_t rank, void *allocated,
+                      void *aligned, intptr_t offset, const intptr_t *sizes,
+                      const intptr_t *strides, int64_t *gs_allocated,
+                      int64_t *gs_aligned, uint64_t *lo_allocated,
+                      uint64_t *lo_aligned, uint64_t balanced) {
           auto t = mk_tnsr(transceiver, dtype, rank, allocated, aligned, offset,
                            sizes, strides, gs_allocated, gs_aligned,
                            lo_allocated, lo_aligned, balanced);
-          t->set_base(future_a.get());
+          if (Registry::has(_a)) {
+            t->set_base(Registry::get(_a).get());
+          } // else _a is a temporary and was dropped
           this->set_value(std::move(t));
         });
     return false;
diff --git a/src/idtr.cpp b/src/idtr.cpp
@@ -273,46 +273,84 @@ void bufferizeN(void *cptr, DTypeId dtype, const int64_t *sizes,
            });
 }
 
+using MRIdx1d = Unranked1DMemRefType<uint64_t>;
+
 extern "C" {
 // Elementwise inplace allreduce
 void idtr_reduce_all(void *inout, DTypeId dtype, uint64_t N, ReduceOpId op) {
   getTransceiver()->reduce_all(inout, dtype, N, op);
 }
 
 // FIXME hard-coded for contiguous layout
-void _idtr_reduce_all(uint64_t rank, void *data, const int64_t *sizes,
-                      const int64_t *strides, int dtype, int op) {
-  assert(rank == 0 || strides[rank - 1] == 1);
+void _idtr_reduce_all(void *data, int64_t sizesRank, int64_t *sizesDesc,
+                      int64_t stridesRank, int64_t *stridesDesc, int dtype,
+                      int op) {
+  MRIdx1d sizesMR(sizesRank, sizesDesc);
+  MRIdx1d stridesMR(stridesRank, stridesDesc);
+  auto sizes = reinterpret_cast<int64_t *>(sizesMR.data());
+  auto strides = reinterpret_cast<int64_t *>(stridesMR.data());
+  auto rank = sizesMR.size();
+  assert(rank == 0 || (rank == 1 && strides[0] == 1));
   idtr_reduce_all(data, mlir2ddpt(static_cast<::imex::ptensor::DType>(dtype)),
-                  rank ? rank : 1,
+                  rank ? sizes[0] : 1,
                   mlir2ddpt(static_cast<imex::ptensor::ReduceOpId>(op)));
 }
 
 /// @brief reshape tensor
 /// We assume tensor is partitioned along the first dimension (only) and
 /// partitions are ordered by ranks
-/// @param rank
-/// @param gShapePtr
+/// @param gShapeRank
+/// @param gShapeDesc
 /// @param dtype
 /// @param lDataPtr
-/// @param lOffsPtr
-/// @param lShapePtr
-/// @param lStridesPtr
-/// @param oRank
-/// @param oGShapePtr
-/// @param oOffsPtr
-/// @param oShapePtr
+/// @param lOffsRank
+/// @param lOffsDesc
+/// @param lShapeRank
+/// @param lShapeDesc
+/// @param lStridesRank
+/// @param lStridesDesc
+/// @param oGShapeRank
+/// @param oGShapeDesc
+/// @param oOffsRank
+/// @param oOffsDesc
+/// @param oShapeRank
+/// @param oShapeDesc
 /// @param outPtr
 /// @param tc
-void _idtr_reshape(int64_t rank, int64_t *gShapePtr, int dtype, void *lDataPtr,
-                   int64_t *lOffsPtr, int64_t *lShapePtr, int64_t *lStridesPtr,
-                   int64_t oRank, int64_t *oGShapePtr, int64_t *oOffsPtr,
-                   int64_t *oShapePtr, void *outPtr, Transceiver *tc) {
+void _idtr_reshape(int64_t gShapeRank, int64_t *gShapeDesc, int dtype,
+                   void *lDataPtr, int64_t lOffsRank, int64_t *lOffsDesc,
+                   int64_t lShapeRank, int64_t *lShapeDesc,
+                   int64_t lStridesRank, int64_t *lStridesDesc,
+                   int64_t oGShapeRank, int64_t *oGShapeDesc, int64_t oOffsRank,
+                   int64_t *oOffsDesc, int64_t oShapeRank, int64_t *oShapeDesc,
+                   void *outPtr, Transceiver *tc) {
 #ifdef NO_TRANSCEIVER
   initMPIRuntime();
   tc = getTransceiver();
 #endif
 
+  assert(1 == gShapeRank && 1 == lOffsRank && 1 == lShapeRank &&
+         1 == lStridesRank && 1 == oGShapeRank && 1 == oOffsRank &&
+         1 == oShapeRank);
+
+  MRIdx1d gShapeUMR(gShapeRank, gShapeDesc);
+  MRIdx1d oGShapeUMR(oGShapeRank, oGShapeDesc);
+  auto rank = gShapeUMR.size();
+  auto oRank = oGShapeUMR.size();
+
+  auto gShapePtr = reinterpret_cast<int64_t *>(gShapeUMR.data());
+  auto lOffsPtr =
+      reinterpret_cast<int64_t *>(MRIdx1d(lOffsRank, lOffsDesc).data());
+  auto lShapePtr =
+      reinterpret_cast<int64_t *>(MRIdx1d(lShapeRank, lShapeDesc).data());
+  auto lStridesPtr =
+      reinterpret_cast<int64_t *>(MRIdx1d(lStridesRank, lStridesDesc).data());
+  auto oGShapePtr = reinterpret_cast<int64_t *>(oGShapeUMR.data());
+  auto oOffsPtr =
+      reinterpret_cast<int64_t *>(MRIdx1d(oOffsRank, oOffsDesc).data());
+  auto oShapePtr =
+      reinterpret_cast<int64_t *>(MRIdx1d(oShapeRank, oShapeDesc).data());
+
   assert(std::accumulate(&gShapePtr[0], &gShapePtr[rank], 1,
                          std::multiplies<int64_t>()) ==
          std::accumulate(&oGShapePtr[0], &oGShapePtr[oRank], 1,
@@ -392,12 +430,9 @@ void _idtr_reshape(int64_t rank, int64_t *gShapePtr, int dtype, void *lDataPtr,
                rszs.data(), roffs.data());
 }
 
-using MRIdx1d = Unranked1DMemRefType<uint64_t>;
-
 /// @brief repartition tensor
 /// We assume tensor is partitioned along the first dimension (only) and
 /// partitions are ordered by ranks
-/// @param rank
 /// @param gShapeRank
 /// @param gShapeDesc
 /// @param dtype
@@ -414,9 +449,9 @@ using MRIdx1d = Unranked1DMemRefType<uint64_t>;
 /// @param szsDesc
 /// @param outPtr
 /// @param tc
-void _idtr_repartition(int64_t rank, int64_t gShapeRank, void *gShapeDesc,
-                       int dtype, void *lDataPtr, int64_t lOffsRank,
-                       void *lOffsDesc, int64_t lShapeRank, void *lShapeDesc,
+void _idtr_repartition(int64_t gShapeRank, void *gShapeDesc, int dtype,
+                       void *lDataPtr, int64_t lOffsRank, void *lOffsDesc,
+                       int64_t lShapeRank, void *lShapeDesc,
                        int64_t lStridesRank, void *lStridesDesc,
                        int64_t offsRank, void *offsDesc, int64_t szsRank,
                        void *szsDesc, void *outPtr, Transceiver *tc) {
@@ -436,6 +471,7 @@ void _idtr_repartition(int64_t rank, int64_t gShapeRank, void *gShapeDesc,
   MRIdx1d offsMR(offsRank, offsDesc);
   MRIdx1d szsMR(szsRank, szsDesc);
 
+  int64_t rank = gShapeMR.size();
   auto lShapePtr = reinterpret_cast<int64_t *>(lShapeMR.data());
   auto lStridesPtr = reinterpret_cast<int64_t *>(lStridesMR.data());
 
@@ -520,10 +556,11 @@ void _idtr_repartition(int64_t rank, int64_t gShapeRank, void *gShapeDesc,
   // Finally communicate elements
   if (needsBufferize) {
     // create send buffer if strided
-    Buffer buff(totSSz * sizeof_dtype(ddpttype), 2);
+    Buffer tmpbuff;
+    tmpbuff.resize(totSSz * sizeof_dtype(ddpttype));
     bufferize(lDataPtr, ddpttype, lShapePtr, lStridesPtr, tStarts.data(),
-              tSizes.data(), rank, N, buff.data());
-    tc->alltoall(buff.data(), sszs.data(), soffs.data(), ddpttype, outPtr,
+              tSizes.data(), rank, N, tmpbuff.data());
+    tc->alltoall(tmpbuff.data(), sszs.data(), soffs.data(), ddpttype, outPtr,
                  rszs.data(), roffs.data());
   } else {
     tc->alltoall(lDataPtr, sszs.data(), soffs.data(), ddpttype, outPtr,
diff --git a/src/include/ddptensor/MemRefType.hpp b/src/include/ddptensor/MemRefType.hpp
@@ -12,11 +12,10 @@ template <typename T, size_t N> struct MemRefDescriptor {
 };
 
 template <typename T> struct Unranked1DMemRefType {
-  int64_t rank;
   MemRefDescriptor<T, 1> *descriptor;
 
-  Unranked1DMemRefType(int64_t _rank, void *p)
-      : rank(_rank), descriptor(static_cast<MemRefDescriptor<T, 1> *>(p)) {
+  Unranked1DMemRefType(int64_t rank, void *p)
+      : descriptor(static_cast<MemRefDescriptor<T, 1> *>(p)) {
     assert(rank == 1);
   };
 
@@ -25,4 +24,5 @@ template <typename T> struct Unranked1DMemRefType {
     return *(d->aligned + d->offset + idx * d->strides[0]);
   };
   T *data() { return descriptor->aligned; };
+  int64_t size() { return descriptor->sizes[0]; };
 };
diff --git a/test/utils.py b/test/utils.py
@@ -3,11 +3,13 @@
 
 
 def runAndCompare(func, do_gather=True):
-    a = func(ddptensor)
-    if do_gather:
-        a = ddptensor.spmd.gather(a)
+    aa = func(ddptensor)
+    a = ddptensor.spmd.gather(aa) if do_gather else aa
     b = func(numpy)
     if isinstance(b, numpy.ndarray):
+        print(aa)
+        print(a)
+        print(b)
         return a.shape == b.shape and numpy.allclose(a, b, rtol=1e-8, atol=1e-8)
     return float(a) == float(b)
 

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-94418f99f4b58eb57cc661057956eb36e2fce66b`
	`1`	`+524df1c49aed52259f9ef8cea018c123b0bcada3`