rapidsai · rapids-bot · Jul 1, 2021 · Jun 30, 2021 · Jun 30, 2021
@@ -1147,8 +1147,8 @@ __global__ void hessenberg_reduction_kernel(T* d_U, T* d_H, T* d_hh, int n) {
       if (i < n) {
         b_H[j * n + i] -= (T)2 * hh_k_i * shared_mem[0];
       }
+      __syncthreads();
     }
-    __syncthreads();
 
     // H[:, k+1:] = H[:, k+1:] - 2 * (H[:, k+1:] * uk) * uk'
     // Note: we do a coalesced load of hh_k in shared memory
@@ -1203,8 +1203,8 @@ __global__ void hessenberg_reduction_kernel(T* d_U, T* d_H, T* d_hh, int n) {
       if (i < n) {
         b_U[j * n + i] -= (T)2 * hh_k_i * shared_mem[0];
       }
+      __syncthreads();
     }
-    __syncthreads();
 
     b_hh_k -= n - k;
   }

@@ -146,7 +146,6 @@ void make_arima(DataT* out, int batch_size, int n_obs, ML::ARIMAOrder order,
 
   // Generate parameters. We draw temporary random parameters and transform
   // them to create the final parameters.
-  // Note: sigma2 is unused so we don't even initialize it
   ML::ARIMAParams<DataT> params_temp, params;
   params_temp.allocate(order, batch_size, allocator, stream, false);
   params.allocate(order, batch_size, allocator, stream, true);
@@ -170,7 +169,11 @@ void make_arima(DataT* out, int batch_size, int n_obs, ML::ARIMAOrder order,
     gpu_gen.uniform(params_temp.sma, batch_size * order.Q, (DataT)-1.0,
                     (DataT)1.0, stream);
   }
-  params.mu = params_temp.mu;  // No need to copy, just reuse the pointer
+  // Note: sigma2 is unused, we just memset it to zero
+  CUDA_CHECK(
+    cudaMemsetAsync(params_temp.sigma2, 0, batch_size * sizeof(DataT), stream));
+  // No need to copy, just reuse the pointer
+  params.mu = params_temp.mu;
   TimeSeries::batched_jones_transform(order, batch_size, false, params_temp,
                                       params, allocator, stream);