Merge branch 'release/25.12' into java/rmm-memory-pool-functions

mythrocks · web-flow · commit d74f38ef7c5b · 2025-11-20T15:07:11.000-08:00
diff --git a/.github/workflows/pr.yaml b/.github/workflows/pr.yaml
@@ -187,7 +187,7 @@ jobs:
     with:
       build_type: pull-request
       arch: "amd64"
-      date: ${{ inputs.date }}_c
+      date: ${{ inputs.date }}
       container_image: "rapidsai/ci-wheel:25.12-cuda${{ matrix.cuda_version }}-rockylinux8-py3.10"
       node_type: "cpu16"
       # requires_license_builder: false
@@ -210,7 +210,7 @@ jobs:
       build_type: pull-request
       node_type: "gpu-l4-latest-1"
       arch: "amd64"
-      date: ${{ inputs.date }}_c
+      date: ${{ inputs.date }}
       container_image: "rapidsai/ci-wheel:25.12-cuda${{ matrix.cuda_version }}-rockylinux8-py3.10"
       script: "ci/test_standalone_c.sh"
       sha: ${{ inputs.sha }}
diff --git a/c/src/core/c_api.cpp b/c/src/core/c_api.cpp
@@ -185,7 +185,7 @@ extern "C" cuvsError_t cuvsRMMPoolMemoryResourceEnable(int initial_pool_size_per
 extern "C" cuvsError_t cuvsRMMMemoryResourceReset()
 {
   return cuvs::core::translate_exceptions([=] {
-    rmm::mr::set_current_device_resource(nullptr);
+    rmm::mr::set_current_device_resource(rmm::mr::detail::initial_resource());
     pool_mr.reset();
   });
 }
diff --git a/cpp/src/cluster/detail/single_linkage.cuh b/cpp/src/cluster/detail/single_linkage.cuh
@@ -61,73 +61,80 @@ void build_mr_linkage(
   size_t n    = X.extent(1);
   auto stream = raft::resource::get_cuda_stream(handle);
 
-  auto mr_indptr = raft::make_device_vector<value_idx, value_idx>(handle, m + 1);
-  raft::sparse::COO<value_t, value_idx, nnz_t> mr_coo(stream, min_samples * m * 2);
-
-  auto inds  = raft::make_device_matrix<value_idx, value_idx>(handle, m, min_samples);
-  auto dists = raft::make_device_matrix<value_t, value_idx>(handle, m, min_samples);
-
-  if (all_neighbors_p.metric != metric) {
-    RAFT_LOG_WARN("Setting all neighbors metric to given metrix for build_mr_linkage");
-    all_neighbors_p.metric = metric;
-  }
-  cuvs::neighbors::all_neighbors::build(
-    handle, all_neighbors_p, X, inds.view(), dists.view(), core_dists, alpha);
-
-  // self-loops get max distance
-  auto coo_rows = raft::make_device_vector<value_idx, value_idx>(handle, min_samples * m);
-  raft::linalg::map_offset(handle, coo_rows.view(), raft::div_const_op<value_idx>(min_samples));
-
-  raft::sparse::linalg::symmetrize(handle,
-                                   coo_rows.data_handle(),
-                                   inds.data_handle(),
-                                   dists.data_handle(),
-                                   static_cast<value_idx>(m),
-                                   static_cast<value_idx>(m),
-                                   static_cast<nnz_t>(min_samples * m),
-                                   mr_coo);
-
-  raft::sparse::convert::sorted_coo_to_csr(
-    mr_coo.rows(), mr_coo.nnz, mr_indptr.data_handle(), m + 1, stream);
-
-  auto rows_view = raft::make_device_vector_view<const value_idx, nnz_t>(mr_coo.rows(), mr_coo.nnz);
-  auto cols_view = raft::make_device_vector_view<const value_idx, nnz_t>(mr_coo.cols(), mr_coo.nnz);
-  auto vals_in_view =
-    raft::make_device_vector_view<const value_t, nnz_t>(mr_coo.vals(), mr_coo.nnz);
-  auto vals_out_view = raft::make_device_vector_view<value_t, nnz_t>(mr_coo.vals(), mr_coo.nnz);
-
-  raft::linalg::map(
-    handle,
-    vals_out_view,
-    [=] __device__(const value_idx row, const value_idx col, const value_t val) {
-      return row == col ? std::numeric_limits<value_t>::max() : val;
-    },
-    rows_view,
-    cols_view,
-    vals_in_view);
-
-  rmm::device_uvector<value_idx> color(m, raft::resource::get_cuda_stream(handle));
-  cuvs::sparse::neighbors::MutualReachabilityFixConnectivitiesRedOp<value_idx, value_t>
-    reduction_op(core_dists.data_handle(), m);
-
-  size_t nnz = m * min_samples;
-
-  detail::build_sorted_mst<value_idx, value_t>(handle,
-                                               X.data_handle(),
-                                               mr_indptr.data_handle(),
-                                               mr_coo.cols(),
-                                               mr_coo.vals(),
-                                               m,
-                                               n,
-                                               out_mst.structure_view().get_rows().data(),
-                                               out_mst.structure_view().get_cols().data(),
-                                               out_mst.get_elements().data(),
-                                               color.data(),
-                                               mr_coo.nnz,
-                                               reduction_op,
-                                               metric,
-                                               10);
-
+  {  // scope to drop mr_coo and mr_indptr early
+    std::optional<raft::sparse::COO<value_t, value_idx, nnz_t>> mr_coo;
+
+    {  // scope to drop inds and dists matrices early
+      auto inds  = raft::make_device_matrix<value_idx, value_idx>(handle, m, min_samples);
+      auto dists = raft::make_device_matrix<value_t, value_idx>(handle, m, min_samples);
+
+      if (all_neighbors_p.metric != metric) {
+        RAFT_LOG_WARN("Setting all neighbors metric to given metrix for build_mr_linkage");
+        all_neighbors_p.metric = metric;
+      }
+      cuvs::neighbors::all_neighbors::build(
+        handle, all_neighbors_p, X, inds.view(), dists.view(), core_dists, alpha);
+
+      // allocate memory after all neighbors build
+      mr_coo.emplace(stream, min_samples * m * 2);
+      // self-loops get max distance
+      auto coo_rows = raft::make_device_vector<value_idx, value_idx>(handle, min_samples * m);
+      raft::linalg::map_offset(handle, coo_rows.view(), raft::div_const_op<value_idx>(min_samples));
+
+      raft::sparse::linalg::symmetrize(handle,
+                                       coo_rows.data_handle(),
+                                       inds.data_handle(),
+                                       dists.data_handle(),
+                                       static_cast<value_idx>(m),
+                                       static_cast<value_idx>(m),
+                                       static_cast<nnz_t>(min_samples * m),
+                                       mr_coo.value());
+    }  // scope to drop inds and dists matrices early
+    auto mr_indptr = raft::make_device_vector<value_idx, value_idx>(handle, m + 1);
+    raft::sparse::convert::sorted_coo_to_csr(
+      mr_coo.value().rows(), mr_coo.value().nnz, mr_indptr.data_handle(), m + 1, stream);
+
+    auto rows_view    = raft::make_device_vector_view<const value_idx, nnz_t>(mr_coo.value().rows(),
+                                                                           mr_coo.value().nnz);
+    auto cols_view    = raft::make_device_vector_view<const value_idx, nnz_t>(mr_coo.value().cols(),
+                                                                           mr_coo.value().nnz);
+    auto vals_in_view = raft::make_device_vector_view<const value_t, nnz_t>(mr_coo.value().vals(),
+                                                                            mr_coo.value().nnz);
+    auto vals_out_view =
+      raft::make_device_vector_view<value_t, nnz_t>(mr_coo.value().vals(), mr_coo.value().nnz);
+
+    raft::linalg::map(
+      handle,
+      vals_out_view,
+      [=] __device__(const value_idx row, const value_idx col, const value_t val) {
+        return row == col ? std::numeric_limits<value_t>::max() : val;
+      },
+      rows_view,
+      cols_view,
+      vals_in_view);
+
+    rmm::device_uvector<value_idx> color(m, raft::resource::get_cuda_stream(handle));
+    cuvs::sparse::neighbors::MutualReachabilityFixConnectivitiesRedOp<value_idx, value_t>
+      reduction_op(core_dists.data_handle(), m);
+
+    size_t nnz = m * min_samples;
+
+    detail::build_sorted_mst<value_idx, value_t>(handle,
+                                                 X.data_handle(),
+                                                 mr_indptr.data_handle(),
+                                                 mr_coo.value().cols(),
+                                                 mr_coo.value().vals(),
+                                                 m,
+                                                 n,
+                                                 out_mst.structure_view().get_rows().data(),
+                                                 out_mst.structure_view().get_cols().data(),
+                                                 out_mst.get_elements().data(),
+                                                 color.data(),
+                                                 mr_coo.value().nnz,
+                                                 reduction_op,
+                                                 metric,
+                                                 10);
+  }  // scope to drop mr_coo and mr_indptr early
   /**
    * Perform hierarchical labeling
    */
diff --git a/examples/c/CMakeLists.txt b/examples/c/CMakeLists.txt
@@ -45,3 +45,7 @@ target_link_libraries(IVF_FLAT_C_EXAMPLE PRIVATE cuvs::c_api $<TARGET_NAME_IF_EX
 add_executable(IVF_PQ_C_EXAMPLE src/ivf_pq_c_example.c)
 target_include_directories(IVF_PQ_C_EXAMPLE PUBLIC "$<BUILD_INTERFACE:${DLPACK_INCLUDE_DIR}>")
 target_link_libraries(IVF_PQ_C_EXAMPLE PRIVATE cuvs::c_api $<TARGET_NAME_IF_EXISTS:conda_env>)
+
+add_executable(BRUTEFORCE_C_EXAMPLE src/bruteforce_c_example.c)
+target_include_directories(BRUTEFORCE_C_EXAMPLE PUBLIC "$<BUILD_INTERFACE:${DLPACK_INCLUDE_DIR}>")
+target_link_libraries(BRUTEFORCE_C_EXAMPLE PRIVATE cuvs::c_api $<TARGET_NAME_IF_EXISTS:conda_env>)
diff --git a/examples/c/src/bruteforce_c_example.c b/examples/c/src/bruteforce_c_example.c
@@ -0,0 +1,165 @@
+/*
+ * SPDX-FileCopyrightText: Copyright (c) 2025, NVIDIA CORPORATION. All rights reserved.
+ * SPDX-License-Identifier: Apache-2.0
+ */
+
+#include <cuvs/neighbors/brute_force.h>
+#include <stdint.h>
+
+static const char dataset[] = {0.74021935f,
+                               0.9209938f,
+                               0.03902049f,
+                               0.9689629f,
+                               0.92514056f,
+                               0.4463501f,
+                               0.6673192f,
+                               0.10993068f};
+
+static const char queries[] = {0.48216683f,
+                               0.0428398f,
+                               0.5084142f,
+                               0.6545497f,
+                               0.51260436f,
+                               0.2643005f,
+                               0.05198065f,
+                               0.5789965f};
+
+void index_and_search()
+{
+  int64_t n_rows       = 4;
+  int64_t n_queries    = 4;
+  int64_t n_dim        = 2;
+  uint32_t n_neighbors = 2;
+
+  float* index_data;
+  float* query_data;
+
+  long indexBytes     = sizeof(float) * n_rows * n_dim;
+  long queriesBytes   = sizeof(float) * n_queries * n_dim;
+  long neighborsBytes = sizeof(long) * n_queries * n_neighbors;
+  long distanceBytes  = sizeof(float) * n_queries * n_neighbors;
+
+  uint32_t* prefilter_data           = NULL;
+  enum cuvsFilterType prefilter_type = NO_FILTER;
+
+  float* distances_data;
+  int64_t* neighbors_data;
+
+  // create cuvsResources_t
+  cuvsResources_t res;
+  cuvsResourcesCreate(&res);
+
+  cuvsRMMAlloc(res, (void**)&index_data, indexBytes);
+  cuvsRMMAlloc(res, (void**)&query_data, queriesBytes);
+  cuvsRMMAlloc(res, (void**)&distances_data, distanceBytes);
+  cuvsRMMAlloc(res, (void**)&neighbors_data, neighborsBytes);
+
+  cudaMemcpy(index_data, dataset, indexBytes, cudaMemcpyHostToDevice);
+  cudaMemcpy(query_data, queries, queriesBytes, cudaMemcpyHostToDevice);
+
+  // create dataset DLTensor
+  DLManagedTensor dataset_tensor;
+  dataset_tensor.dl_tensor.data               = index_data;
+  dataset_tensor.dl_tensor.device.device_type = kDLCUDA;
+  dataset_tensor.dl_tensor.ndim               = 2;
+  dataset_tensor.dl_tensor.dtype.code         = kDLFloat;
+  dataset_tensor.dl_tensor.dtype.bits         = 32;
+  dataset_tensor.dl_tensor.dtype.lanes        = 1;
+  int64_t dataset_shape[2]                    = {n_rows, n_dim};
+  dataset_tensor.dl_tensor.shape              = dataset_shape;
+  dataset_tensor.dl_tensor.strides            = NULL;
+
+  // create index
+  cuvsBruteForceIndex_t index;
+  cuvsBruteForceIndexCreate(&index);
+
+  // build index
+  cuvsBruteForceBuild(res, &dataset_tensor, 0, 0.0f, index);
+
+  // create queries DLTensor
+  DLManagedTensor queries_tensor;
+  queries_tensor.dl_tensor.data               = (void*)query_data;
+  queries_tensor.dl_tensor.device.device_type = kDLCUDA;
+  queries_tensor.dl_tensor.ndim               = 2;
+  queries_tensor.dl_tensor.dtype.code         = kDLFloat;
+  queries_tensor.dl_tensor.dtype.bits         = 32;
+  queries_tensor.dl_tensor.dtype.lanes        = 1;
+  int64_t queries_shape[2]                    = {n_queries, n_dim};
+  queries_tensor.dl_tensor.shape              = queries_shape;
+  queries_tensor.dl_tensor.strides            = NULL;
+
+  // create neighbors DLTensor
+  DLManagedTensor neighbors_tensor;
+  neighbors_tensor.dl_tensor.data               = (void*)neighbors_data;
+  neighbors_tensor.dl_tensor.device.device_type = kDLCUDA;
+  neighbors_tensor.dl_tensor.ndim               = 2;
+  neighbors_tensor.dl_tensor.dtype.code         = kDLInt;
+  neighbors_tensor.dl_tensor.dtype.bits         = 64;
+  neighbors_tensor.dl_tensor.dtype.lanes        = 1;
+  int64_t neighbors_shape[2]                    = {n_queries, n_neighbors};
+  neighbors_tensor.dl_tensor.shape              = neighbors_shape;
+  neighbors_tensor.dl_tensor.strides            = NULL;
+
+  // create distances DLTensor
+  DLManagedTensor distances_tensor;
+  distances_tensor.dl_tensor.data               = (void*)distances_data;
+  distances_tensor.dl_tensor.device.device_type = kDLCUDA;
+  distances_tensor.dl_tensor.ndim               = 2;
+  distances_tensor.dl_tensor.dtype.code         = kDLFloat;
+  distances_tensor.dl_tensor.dtype.bits         = 32;
+  distances_tensor.dl_tensor.dtype.lanes        = 1;
+  int64_t distances_shape[2]                    = {n_queries, n_neighbors};
+  distances_tensor.dl_tensor.shape              = distances_shape;
+  distances_tensor.dl_tensor.strides            = NULL;
+
+  cuvsFilter prefilter;
+
+  DLManagedTensor prefilter_tensor;
+  if (prefilter_data == NULL || prefilter_type == NO_FILTER) {
+    prefilter.type = NO_FILTER;
+    prefilter.addr = (uintptr_t)NULL;
+  } else {
+    prefilter_tensor.dl_tensor.data               = (void*)prefilter_data;
+    prefilter_tensor.dl_tensor.device.device_type = kDLCUDA;
+    prefilter_tensor.dl_tensor.ndim               = 1;
+    prefilter_tensor.dl_tensor.dtype.code         = kDLUInt;
+    prefilter_tensor.dl_tensor.dtype.bits         = 32;
+    prefilter_tensor.dl_tensor.dtype.lanes        = 1;
+
+    int64_t prefilter_bits_num = (prefilter_type == BITMAP) ? n_queries * n_rows : n_rows;
+    int64_t prefilter_shape[1] = {(prefilter_bits_num + 31) / 32};
+
+    prefilter_tensor.dl_tensor.shape   = prefilter_shape;
+    prefilter_tensor.dl_tensor.strides = NULL;
+
+    prefilter.type = prefilter_type;
+    prefilter.addr = (uintptr_t)&prefilter_tensor;
+  }
+
+  // search index
+  cuvsBruteForceSearch(
+    res, index, &queries_tensor, &neighbors_tensor, &distances_tensor, prefilter);
+
+  // de-allocate index and res
+  cuvsBruteForceIndexDestroy(index);
+
+  cuvsRMMFree(res, index_data, indexBytes);
+  cuvsRMMFree(res, query_data, queriesBytes);
+  cuvsRMMFree(res, distances_data, distanceBytes);
+  cuvsRMMFree(res, neighbors_data, neighborsBytes);
+
+  cuvsResourcesDestroy(res);
+}
+
+int main()
+{
+  // Perform indexing and search with pooled resources
+  cuvsRMMPoolMemoryResourceEnable(10, 60, false);
+  index_and_search();
+
+  // Perform indexing and search with the default memory resources
+  cuvsRMMMemoryResourceReset();
+  index_and_search();
+
+  return 0;
+}

Original file line number	Diff line number	Diff line change
`@@ -185,7 +185,7 @@ extern "C" cuvsError_t cuvsRMMPoolMemoryResourceEnable(int initial_pool_size_per`
`185`	`185`	`extern "C" cuvsError_t cuvsRMMMemoryResourceReset()`
`186`	`186`	`{`
`187`	`187`	`return cuvs::core::translate_exceptions([=] {`
`188`		`- rmm::mr::set_current_device_resource(nullptr);`
	`188`	`+ rmm::mr::set_current_device_resource(rmm::mr::detail::initial_resource());`
`189`	`189`	`pool_mr.reset();`
`190`	`190`	`});`
`191`	`191`	`}`