JuliaORNL · kmp5VT · May 3, 2024 · May 3, 2024 · May 3, 2024 · May 3, 2024
diff --git a/ext/JACCAMDGPU/JACCAMDGPU.jl b/ext/JACCAMDGPU/JACCAMDGPU.jl
@@ -1,19 +1,17 @@
 module JACCAMDGPU
 
 using JACC, AMDGPU
-
-include("array.jl")
-
-function JACC.parallel_for(N::I, f::F, x...) where {I <: Integer, F <: Function}
+using JACC: JACCArrayType
+function JACC.parallel_for(::JACCArrayType{<:ROCArray}, N::Integer, f::Function, x...)
     numThreads = 512
     threads = min(N, numThreads)
     blocks = ceil(Int, N / threads)
     @roc groupsize=threads gridsize=blocks _parallel_for_amdgpu(f, x...)
     AMDGPU.synchronize()
 end
 
-function JACC.parallel_for(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_for(::JACCArrayType{<:ROCArray},
+        (M, N)::Tuple{Integer, Integer}, f::Function, x...)
     numThreads = 16
     Mthreads = min(M, numThreads)
     Nthreads = min(N, numThreads)
@@ -24,8 +22,8 @@ function JACC.parallel_for(
     AMDGPU.synchronize()
 end
 
-function JACC.parallel_reduce(
-        N::I, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_reduce(::JACCArrayType{<:ROCArray},
+        N::Integer, f::Function, x...)
     numThreads = 512
     threads = min(N, numThreads)
     blocks = ceil(Int, N / threads)
@@ -40,8 +38,8 @@ function JACC.parallel_reduce(
     return rret
 end
 
-function JACC.parallel_reduce(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_reduce(::JACCArrayType{<:ROCArray},
+        (M, N)::Tuple{Integer, Integer}, f::Function, x...)
     numThreads = 16
     Mthreads = min(M, numThreads)
     Nthreads = min(N, numThreads)
@@ -308,8 +306,9 @@ function reduce_kernel_amdgpu_MN((M, N), red, ret)
     return nothing
 end
 
+JACC.arraytype(::Val{:amdgpu}) = ROCArray
+
 function __init__()
-    const JACC.Array = AMDGPU.ROCArray{T, N} where {T, N}
 end
 
 end # module JACCAMDGPU
diff --git a/ext/JACCAMDGPU/array.jl b/ext/JACCAMDGPU/array.jl
diff --git a/ext/JACCCUDA/JACCCUDA.jl b/ext/JACCCUDA/JACCCUDA.jl
@@ -1,11 +1,8 @@
 module JACCCUDA
 
 using JACC, CUDA
-
-# overloaded array functions
-include("array.jl")
-
-function JACC.parallel_for(N::I, f::F, x...) where {I <: Integer, F <: Function}
+using JACC: JACCArrayType
+function JACC.parallel_for(::JACCArrayType{<:CuArray}, N::Integer, f::Function, x...)
     parallel_args = (N, f, x...)
     parallel_kargs = cudaconvert.(parallel_args)
     parallel_tt = Tuple{Core.Typeof.(parallel_kargs)...}
@@ -16,8 +13,8 @@ function JACC.parallel_for(N::I, f::F, x...) where {I <: Integer, F <: Function}
     parallel_kernel(parallel_kargs...; threads = threads, blocks = blocks)
 end
 
-function JACC.parallel_for(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_for(::JACCArrayType{<:CuArray},
+        (M, N)::Tuple{Integer, Integer}, f::Function, x...)
     numThreads = 16
     Mthreads = min(M, numThreads)
     Nthreads = min(N, numThreads)
@@ -27,8 +24,8 @@ function JACC.parallel_for(
         f, x...)
 end
 
-function JACC.parallel_reduce(
-        N::I, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_reduce(::JACCArrayType{<:CuArray},
+        N::Integer, f::Function, x...)
     numThreads = 512
     threads = min(N, numThreads)
     blocks = ceil(Int, N / threads)
@@ -41,8 +38,8 @@ function JACC.parallel_reduce(
     return rret
 end
 
-function JACC.parallel_reduce(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_reduce(::JACCArrayType{<:CuArray},
+        (M, N)::Tuple{Integer, Integer}, f::Function, x...)
     numThreads = 16
     Mthreads = min(M, numThreads)
     Nthreads = min(N, numThreads)
@@ -312,8 +309,9 @@ function reduce_kernel_cuda_MN((M, N), red, ret)
     return nothing
 end
 
+JACC.arraytype(::Val{:cuda}) = CuArray
+
 function __init__()
-    const JACC.Array = CUDA.CuArray{T, N} where {T, N}
 end
 
 end # module JACCCUDA
diff --git a/ext/JACCCUDA/array.jl b/ext/JACCCUDA/array.jl
diff --git a/ext/JACCONEAPI/JACCONEAPI.jl b/ext/JACCONEAPI/JACCONEAPI.jl
@@ -2,17 +2,17 @@
 module JACCONEAPI
 
 using JACC, oneAPI
-
-function JACC.parallel_for(N::I, f::F, x...) where {I <: Integer, F <: Function}
+using JACC: JACCArrayType
+function JACC.parallel_for(::JACCArrayType{<:oneArray}, N::Integer, f::Function, x...)
     #maxPossibleItems = oneAPI.oneL0.compute_properties(device().maxTotalGroupSize)
     maxPossibleItems = 256
     items = min(N, maxPossibleItems)
     groups = ceil(Int, N / items)
     oneAPI.@sync @oneapi items=items groups=groups _parallel_for_oneapi(f, x...)
 end
 
-function JACC.parallel_for(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_for(::JACCArrayType{<:oneArray},
+        (M, N)::Tuple{Integer, Integer}, f::Function, x...)
     maxPossibleItems = 16
     Mitems = min(M, maxPossibleItems)
     Nitems = min(N, maxPossibleItems)
@@ -22,8 +22,8 @@ function JACC.parallel_for(
         f, x...)
 end
 
-function JACC.parallel_reduce(
-        N::I, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_reduce(::JACCArrayType{<:oneArray},
+        N::Integer, f::Function, x...)
     numItems = 256
     items = min(N, numItems)
     groups = ceil(Int, N / items)
@@ -35,8 +35,8 @@ function JACC.parallel_reduce(
     return rret
 end
 
-function JACC.parallel_reduce(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
+function JACC.parallel_reduce(::JACCArrayType{<:oneArray},
+        (M, N)::Tuple{Integer, Integer}, f::Function, x...)
     numItems = 16
     Mitems = min(M, numItems)
     Nitems = min(N, numItems)
@@ -300,8 +300,9 @@ function reduce_kernel_oneapi_MN((M, N), red, ret)
     return nothing
 end
 
+JACC.arraytype(::Val{:oneapi}) = oneArray
+
 function __init__()
-    const JACC.Array = oneAPI.oneArray{T, N} where {T, N}
 end
 
 end # module JACCONEAPI
diff --git a/src/JACC.jl b/src/JACC.jl
@@ -1,62 +1,27 @@
-__precompile__(false)
+#__precompile__(false)
 module JACC
 
-import Atomix: @atomic
+using Atomix: @atomic
 # module to set back end preferences 
 include("JACCPreferences.jl")
 include("helper.jl")
 # overloaded array functions
 include("array.jl")
 
-export Array, @atomic
 export parallel_for
 
-global Array
-
-function parallel_for(N::I, f::F, x...) where {I <: Integer, F <: Function}
-    @maybe_threaded for i in 1:N
-        f(i, x...)
-    end
-end
-
-function parallel_for(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
-    @maybe_threaded for j in 1:N
-        for i in 1:M
-            f(i, j, x...)
-        end
-    end
+function JACC_BACKEND_TYPE()
+    return JACCArrayType{arraytype(Val(Symbol(JACCPreferences.backend)))}()
 end
-
-function parallel_reduce(N::I, f::F, x...) where {I <: Integer, F <: Function}
-    tmp = zeros(Threads.nthreads())
-    ret = zeros(1)
-    @maybe_threaded for i in 1:N
-        tmp[Threads.threadid()] = tmp[Threads.threadid()] .+ f(i, x...)
-    end
-    for i in 1:Threads.nthreads()
-        ret = ret .+ tmp[i]
-    end
-    return ret
+function parallel_for(N, f::Function, x...)
+	return parallel_for(JACC_BACKEND_TYPE(), N, f, x...)
 end
 
-function parallel_reduce(
-        (M, N)::Tuple{I, I}, f::F, x...) where {I <: Integer, F <: Function}
-    tmp = zeros(Threads.nthreads())
-    ret = zeros(1)
-    @maybe_threaded for j in 1:N
-        for i in 1:M
-            tmp[Threads.threadid()] = tmp[Threads.threadid()] .+ f(i, j, x...)
-        end
-    end
-    for i in 1:Threads.nthreads()
-        ret = ret .+ tmp[i]
-    end
-    return ret
+function parallel_reduce(N, f::Function, x...)
+	return parallel_reduce(JACC_BACKEND_TYPE(), N, f, x...)
 end
 
 function __init__()
-    const JACC.Array = Base.Array{T, N} where {T, N}
 end
 
 end # module JACC
diff --git a/src/array.jl b/src/array.jl
@@ -1,8 +1,52 @@
 
 function zeros(T, dims...)
-    return Base.zeros(T, dims...)
+		return fill!(similar(arraytype(){T}, dims...), zero(T))
 end
 
 function ones(T, dims...)
-    return Base.ones(T, dims...)
+	return fill!(similar(arraytype(){T}, dims...), one(T))
+end
+
+array(T::AbstractArray) = arraytype()(T)
+
+function parallel_for(::JACCArrayType{<:Array}, N::Integer, f::Function, x...)
+	@maybe_threaded for i in 1:N
+			f(i, x...)
+	end
+end
+
+function parallel_for(::JACCArrayType{<:Array},
+			(M, N)::Tuple{Integer, Integer}, f::Function, x...)
+	@maybe_threaded for j in 1:N
+			for i in 1:M
+					f(i, j, x...)
+			end
+	end
+end
+
+function parallel_reduce(::JACCArrayType{<:Array}, N::Integer, f::Function, x...)
+	tmp = Base.zeros(Threads.nthreads())
+	ret = Base.zeros(1)
+	@maybe_threaded for i in 1:N
+			tmp[Threads.threadid()] = tmp[Threads.threadid()] .+ f(i, x...)
+	end
+	for i in 1:Threads.nthreads()
+			ret = ret .+ tmp[i]
+	end
+	return ret
+end
+
+function parallel_reduce(::JACCArrayType{<:Array},
+			(M, N)::Tuple{Integer, Integer}, f::Function, x...)
+	tmp = Base.zeros(Threads.nthreads())
+	ret = Base.zeros(1)
+	@maybe_threaded for j in 1:N
+			for i in 1:M
+					tmp[Threads.threadid()] = tmp[Threads.threadid()] .+ f(i, j, x...)
+			end
+	end
+	for i in 1:Threads.nthreads()
+			ret = ret .+ tmp[i]
+	end
+	return ret
 end
diff --git a/src/helper.jl b/src/helper.jl
@@ -6,3 +6,12 @@ macro maybe_threaded(ex)
         return esc(:(Threads.@threads :static $ex))
     end
 end
+
+struct JACCArrayType{T}
+end
+
+arraytype() = arraytype(Val(Symbol(JACCPreferences.backend)))
+arraytype(::Val{:threads}) = Array
+arraytype(::Val{T}) where T = error("The backend $(T) is either not recognized or the associated package is not loaded.")
+arraytype(J::JACCArrayType) = arraytype(typeof(J))
+arraytype(::Type{<:JACCArrayType{T}}) where {T} = T
diff --git a/test/tests_amdgpu.jl b/test/tests_amdgpu.jl
@@ -1,5 +1,5 @@
-import AMDGPU
-import JACC
+using AMDGPU
+using JACC
 using Test
 
 @testset "TestBackend" begin
@@ -15,7 +15,7 @@ end
     dims = (N)
     a = round.(rand(Float32, dims) * 100)
 
-    a_device = JACC.Array(a)
+    a_device = JACC.array(a)
     JACC.parallel_for(N, f, a_device)
 
     a_expected = a .+ 5.0
@@ -39,8 +39,8 @@ end
     y = round.(rand(Float32, N) * 100)
     alpha = 2.5
 
-    x_device = JACC.Array(x)
-    y_device = JACC.Array(y)
+    x_device = JACC.array(x)
+    y_device = JACC.array(y)
     JACC.parallel_for(N, axpy, alpha, x_device, y_device)
 
     x_expected = x
@@ -59,9 +59,9 @@ end
     # Generate random vectors x and y of length N for the interval [0, 100]
     alpha = 2.5
 
-    x = JACC.Array(round.(rand(Float32, N) * 100))
-    y = JACC.Array(round.(rand(Float32, N) * 100))
-    counter = JACC.Array{Int32}([0])
+    x = JACC.array(round.(rand(Float32, N) * 100))
+    y = JACC.array(round.(rand(Float32, N) * 100))
+    counter = JACC.array(Int32[0])
     JACC.parallel_for(N, axpy_counter!, alpha, x, y, counter)
 
     @test Array(counter)[1] == N