FluxML · CarloLucibello · Jan 20, 2021 · Jan 20, 2021 · Jan 20, 2021 · Jan 20, 2021
diff --git a/src/batched/batchedadjtrans.jl b/src/batched/batchedadjtrans.jl
@@ -91,3 +91,12 @@ end
 Base.unsafe_convert(::Type{Ptr{T}}, A::BatchedAdjOrTrans{T}) where {T} =
     Base.unsafe_convert(Ptr{T}, parent(A))
 
+# Gradients
+function ChainRulesCore.rrule(::typeof(batched_transpose), A::AbstractArray{<:Any,3})
+    b_transpose_back(Δ) = (NO_FIELDS, batched_transpose(Δ))
+    batched_transpose(A), b_transpose_back
+end
+function ChainRulesCore.rrule(::typeof(batched_adjoint), A::AbstractArray{<:Any,3})
+    b_adjoint_back(Δ) = (NO_FIELDS, batched_adjoint(Δ))
+    batched_adjoint(A), b_adjoint_back
+end
diff --git a/test/batchedmul.jl b/test/batchedmul.jl
@@ -1,6 +1,7 @@
 using NNlib, Test, LinearAlgebra
 using NNlib: storage_type, storage_typejoin, is_strided,
-    batched_mul!, _unbatch, _copy_if_faster, BatchedAdjoint
+    batched_mul!, _unbatch, _copy_if_faster,
+    BatchedAdjoint, BatchedTranspose
 
 function bmm_test(a,b; transA = false, transB = false)
     bs = size(a,3)
@@ -232,9 +233,14 @@ end
 
 end
 
+FiniteDifferences.to_vec(x::BatchedAdjoint) = FiniteDifferences.to_vec(collect(x))
+FiniteDifferences.to_vec(x::BatchedTranspose) = FiniteDifferences.to_vec(collect(x))
+
 @testset "AutoDiff" begin
   M, P, Q = 13, 7, 11
   B = 3
   gradtest(batched_mul, randn(rng, M, P, B), randn(rng, P, Q, B))
+  gradtest(batched_mul, batched_adjoint(randn(rng, P, M, B)), randn(rng, P, Q, B))
+  gradtest(batched_mul, randn(rng, M, P, B), batched_transpose(randn(rng, Q, P, B)))
 end